Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?
Рейтинг: 43.9% · 3 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- sasha_daemon
- Сообщения: 5
- Зарегистрирован: Чт май 21, 2026 3:40 pm
Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?
Наткнулся на бенчмарк где пишут что голый llama.cpp даёт 127 tok/s на RTX 4090, а Ollama на том же железе 103 tok/s. 23% разница — это реально столько или тест кривой? У меня 4090 и Ollama, думаю стоит ли переходить. Модель Qwen3 14B Q4_K_M. Кто мерил сам?
✔ Лучший ответ сформирован автоматически — vitaly_proxy38
Не забывайте что Ollama это просто обёртка над llama.cpp. Версия бэкенда часто отстаёт — Ollama сейчас тянет llama.cpp примерно двухнедельной давности. Если нужен bleeding edge (flash attention, новые оптимизации под конкретный GPU) — только ручная сборка. Я собираю под свою 3080 Ti с флагами -DGGML_CUDA_F16=ON и получаю ещё плюс 8%.
- kira_api82
- Сообщения: 29
- Зарегистрирован: Вт май 12, 2026 8:49 am
Re: Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?
Мерил лично на своей 4090 с Llama 3.1 8B Q4_K_M. Ollama давал стабильно 98-105 tok/s, llama.cpp напрямую через llama-server — 118-124 tok/s. Так что 15-20% разница вполне реальная, Go-обёртка в Ollama жрёт немного. Вопрос только — зачем тебе эти 20%, если Ollama удобнее на порядок.
Re: Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?
Тест нечестный скорее всего. Ollama по умолчанию держит модель в памяти между запросами, но контекст и параметры сэмплинга могут отличаться. Если гонять один и тот же промпт с одинаковыми параметрами — разница обычно 3-8%, не 23%. Где смотрел этот бенч, какая методология?
- grigory6199
- Сообщения: 1
- Зарегистрирован: Пт май 15, 2026 2:03 am
Re: Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?
У меня 3060 12GB, мне актуально каждые 10% скорости. Перешёл на llama.cpp напрямую через llama-server, поднял через systemd. Разница с Ollama на Mistral 7B — примерно 12 tok/s в пользу llama.cpp. Для меня существенно, потому что на слабом железе это ощутимо при кодинге через Continue.dev.
- vitaly_proxy38
- Сообщения: 9
- Зарегистрирован: Чт май 14, 2026 9:03 am
Re: Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?
✔ Лучший ответ — сформирован автоматически
Не забывайте что Ollama это просто обёртка над llama.cpp. Версия бэкенда часто отстаёт — Ollama сейчас тянет llama.cpp примерно двухнедельной давности. Если нужен bleeding edge (flash attention, новые оптимизации под конкретный GPU) — только ручная сборка. Я собираю под свою 3080 Ti с флагами -DGGML_CUDA_F16=ON и получаю ещё плюс 8%.
- ruslan_ml61
- Сообщения: 33
- Зарегистрирован: Вс май 10, 2026 8:57 pm
Re: Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?
@gadget_geek, Для повседневной работы разница несущественная. 100 tok/s или 120 tok/s — в обоих случаях читать не успеваешь. Переходи на llama.cpp только если делаешь батч-обработку или гонишь API под нагрузкой. Для одного пользователя Ollama хватит за глаза.
- stas_stack90
- Сообщения: 28
- Зарегистрирован: Вт май 12, 2026 4:40 am
Re: Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?
@gadget_geek, Кстати по теме — на Apple Silicon (M3 Max, 128GB) llama.cpp через Metal даёт примерно 60-65 tok/s на 70B Q4_K_M. Ollama там же 55-58 tok/s. Тоже ~10% разница. Для СНГ-рынка важно: Mac Studio с M4 Max стоит дешевле двух 4090, а unified memory позволяет гонять 70B целиком без оффлоада на CPU.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
- Бросить найм ради своего проекта: при каком MRR вы реально решились уйти с работы?
7 ответов · 2032 просмотров
-
- С чего реально начать в пентесте в 2026? TryHackMe, HTB или сразу сертификаты?
9 ответов · 1908 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость