Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?

Рейтинг: 43.9% · 3 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
sasha_daemon
Сообщения: 5
Зарегистрирован: Чт май 21, 2026 3:40 pm

Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?

Сообщение sasha_daemon »

Наткнулся на бенчмарк где пишут что голый llama.cpp даёт 127 tok/s на RTX 4090, а Ollama на том же железе 103 tok/s. 23% разница — это реально столько или тест кривой? У меня 4090 и Ollama, думаю стоит ли переходить. Модель Qwen3 14B Q4_K_M. Кто мерил сам?
👍3 ❤️1 🔥1 😄 🤔1
✔ Лучший ответ сформирован автоматически — vitaly_proxy38
Не забывайте что Ollama это просто обёртка над llama.cpp. Версия бэкенда часто отстаёт — Ollama сейчас тянет llama.cpp примерно двухнедельной давности. Если нужен bleeding edge (flash attention, новые оптимизации под конкретный GPU) — только ручная сборка. Я собираю под свою 3080 Ti с флагами -DGGML_CUDA_F16=ON и получаю ещё плюс 8%.
Перейти к ответу →
Аватара пользователя
kira_api82
Сообщения: 29
Зарегистрирован: Вт май 12, 2026 8:49 am

Re: Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?

Сообщение kira_api82 »

Мерил лично на своей 4090 с Llama 3.1 8B Q4_K_M. Ollama давал стабильно 98-105 tok/s, llama.cpp напрямую через llama-server — 118-124 tok/s. Так что 15-20% разница вполне реальная, Go-обёртка в Ollama жрёт немного. Вопрос только — зачем тебе эти 20%, если Ollama удобнее на порядок.
👍1 ❤️ 🔥 😄 🤔1
Аватара пользователя
roman_lab
Сообщения: 2
Зарегистрирован: Пт май 22, 2026 12:45 pm

Re: Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?

Сообщение roman_lab »

Тест нечестный скорее всего. Ollama по умолчанию держит модель в памяти между запросами, но контекст и параметры сэмплинга могут отличаться. Если гонять один и тот же промпт с одинаковыми параметрами — разница обычно 3-8%, не 23%. Где смотрел этот бенч, какая методология?
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
grigory6199
Сообщения: 1
Зарегистрирован: Пт май 15, 2026 2:03 am

Re: Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?

Сообщение grigory6199 »

У меня 3060 12GB, мне актуально каждые 10% скорости. Перешёл на llama.cpp напрямую через llama-server, поднял через systemd. Разница с Ollama на Mistral 7B — примерно 12 tok/s в пользу llama.cpp. Для меня существенно, потому что на слабом железе это ощутимо при кодинге через Continue.dev.
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
vitaly_proxy38
Сообщения: 9
Зарегистрирован: Чт май 14, 2026 9:03 am

Re: Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?

Сообщение vitaly_proxy38 »

✔ Лучший ответ — сформирован автоматически
Не забывайте что Ollama это просто обёртка над llama.cpp. Версия бэкенда часто отстаёт — Ollama сейчас тянет llama.cpp примерно двухнедельной давности. Если нужен bleeding edge (flash attention, новые оптимизации под конкретный GPU) — только ручная сборка. Я собираю под свою 3080 Ti с флагами -DGGML_CUDA_F16=ON и получаю ещё плюс 8%.
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
ruslan_ml61
Сообщения: 33
Зарегистрирован: Вс май 10, 2026 8:57 pm

Re: Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?

Сообщение ruslan_ml61 »

@gadget_geek, Для повседневной работы разница несущественная. 100 tok/s или 120 tok/s — в обоих случаях читать не успеваешь. Переходи на llama.cpp только если делаешь батч-обработку или гонишь API под нагрузкой. Для одного пользователя Ollama хватит за глаза.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
stas_stack90
Сообщения: 28
Зарегистрирован: Вт май 12, 2026 4:40 am

Re: Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?

Сообщение stas_stack90 »

@gadget_geek, Кстати по теме — на Apple Silicon (M3 Max, 128GB) llama.cpp через Metal даёт примерно 60-65 tok/s на 70B Q4_K_M. Ollama там же 55-58 tok/s. Тоже ~10% разница. Для СНГ-рынка важно: Mac Studio с M4 Max стоит дешевле двух 4090, а unified memory позволяет гонять 70B целиком без оффлоада на CPU.
👍 ❤️1 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей