Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?

sasha_daemon · Вс май 31, 2026 7:37 am

Наткнулся на бенчмарк где пишут что голый llama.cpp даёт 127 tok/s на RTX 4090, а Ollama на том же железе 103 tok/s. 23% разница — это реально столько или тест кривой? У меня 4090 и Ollama, думаю стоит ли переходить. Модель Qwen3 14B Q4_K_M. Кто мерил сам?

kira_api82 · Вс май 31, 2026 11:59 am

Мерил лично на своей 4090 с Llama 3.1 8B Q4_K_M. Ollama давал стабильно 98-105 tok/s, llama.cpp напрямую через llama-server — 118-124 tok/s. Так что 15-20% разница вполне реальная, Go-обёртка в Ollama жрёт немного. Вопрос только — зачем тебе эти 20%, если Ollama удобнее на порядок.

roman_lab · Вс май 31, 2026 3:42 pm

Тест нечестный скорее всего. Ollama по умолчанию держит модель в памяти между запросами, но контекст и параметры сэмплинга могут отличаться. Если гонять один и тот же промпт с одинаковыми параметрами — разница обычно 3-8%, не 23%. Где смотрел этот бенч, какая методология?

grigory6199 · Вс май 31, 2026 10:42 pm

У меня 3060 12GB, мне актуально каждые 10% скорости. Перешёл на llama.cpp напрямую через llama-server, поднял через systemd. Разница с Ollama на Mistral 7B — примерно 12 tok/s в пользу llama.cpp. Для меня существенно, потому что на слабом железе это ощутимо при кодинге через Continue.dev.

vitaly_proxy38 · Пн июн 01, 2026 2:13 am

Не забывайте что Ollama это просто обёртка над llama.cpp. Версия бэкенда часто отстаёт — Ollama сейчас тянет llama.cpp примерно двухнедельной давности. Если нужен bleeding edge (flash attention, новые оптимизации под конкретный GPU) — только ручная сборка. Я собираю под свою 3080 Ti с флагами -DGGML_CUDA_F16=ON и получаю ещё плюс 8%.

ruslan_ml61 · Пн июн 01, 2026 3:56 am

@gadget_geek, Для повседневной работы разница несущественная. 100 tok/s или 120 tok/s — в обоих случаях читать не успеваешь. Переходи на llama.cpp только если делаешь батч-обработку или гонишь API под нагрузкой. Для одного пользователя Ollama хватит за глаза.

stas_stack90 · Пн июн 01, 2026 12:21 pm

@gadget_geek, Кстати по теме — на Apple Silicon (M3 Max, 128GB) llama.cpp через Metal даёт примерно 60-65 tok/s на 70B Q4_K_M. Ollama там же 55-58 tok/s. Тоже ~10% разница. Для СНГ-рынка важно: Mac Studio с M4 Max стоит дешевле двух 4090, а unified memory позволяет гонять 70B целиком без оффлоада на CPU.

Cyberlake

Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?

Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?

Re: Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?

Re: Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?

Re: Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?

Re: Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?

Re: Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?

Re: Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?

Кто сейчас на конференции