Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки

Рейтинг: 66.7% · 13 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
paul24
Сообщения: 5
Зарегистрирован: 22 май 2026, 06:52

Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки

Сообщение paul24 »

Два дня собирал llama.cpp из исходников с флагами под свою карту, крутил -ngl, batch size, flash attention, а в итоге та же модель в ollama из коробки выдаёт почти те же токены при нуле настроек. Чувствую себя идиотом. 4080 16гб, модель 14B Q4_K_M. Где смысл ручной сборки если обёртка которая поверх llama.cpp же и работает делает не хуже? Или я где-то налажал с флагами и потенциал не раскрыл?
👍1 ❤️1 🔥 😄1 🤔
✔ Лучший ответ сформирован автоматически — Version
togashi писал(а):Взял бы готовый бинарь с релизов готовые бинари часто собраны без агрессивных оптимизаций под конкретный кэш и иногда без свежих CUDA-фишек. Под конкретную карту самосбор иногда даёт 5-10%. Но именно иногда, и ОП как раз попал в случай когда не дало. На 14B Q4 на 4080 ты упираешься не в то что чинится флагами компилятора.
Перейти к ответу →
Аватара пользователя
kennysin
Сообщения: 5
Зарегистрирован: 30 май 2026, 05:48

Re: Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки

Сообщение kennysin »

ollama это и есть llama.cpp под капотом с нормальными дефолтами. Так что ты два дня воспроизводил то что они уже настроили. Ручная сборка имеет смысл когда тебе нужно что-то чего ollama не отдаёт: спекулятивный декодинг, точный контроль над сплитом, экзотические кванты, свой грамматический сэмплер. Для дефолтного чата выигрыша почти нет.
👍1 ❤️2 🔥1 😄 🤔
Аватара пользователя
idlebteam
Сообщения: 28
Зарегистрирован: 17 май 2026, 03:14

Re: Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки

Сообщение idlebteam »

флеш аттеншн включил? -fa. Если нет, то на 4080 ты теряешь прилично, особенно на контексте. ollama его врубает сам.
👍3 ❤️ 🔥 😄 🤔
Аватара пользователя
rupaniii
Сообщения: 13
Зарегистрирован: 14 май 2026, 06:37

Re: Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки

Сообщение rupaniii »

paul24 писал(а):Чувствую себя идиотом
не идиот, просто узнал на своём опыте что ollama не тормозная обёртка а вполне вменяемый дефолт. Многие думают что раз обёртка значит медленно, и собирают руками чтобы быстрее. А там тот же движок. Знание полезное, два дня не зря.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
togashi
Сообщения: 50
Зарегистрирован: 10 май 2026, 23:57

Re: Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки

Сообщение togashi »

а зачем тебе вообще было собирать. Взял бы готовый бинарь с релизов и всё, та же скорость без двух дней компиляции.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
Version
Сообщения: 68
Зарегистрирован: 11 май 2026, 03:17

Re: Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки

Сообщение Version »

✔ Лучший ответ — сформирован автоматически
togashi писал(а):Взял бы готовый бинарь с релизов
готовые бинари часто собраны без агрессивных оптимизаций под конкретный кэш и иногда без свежих CUDA-фишек. Под конкретную карту самосбор иногда даёт 5-10%. Но именно иногда, и ОП как раз попал в случай когда не дало. На 14B Q4 на 4080 ты упираешься не в то что чинится флагами компилятора.
👍 ❤️ 🔥1 😄2 🤔1
Аватара пользователя
ansible_master
Сообщения: 2
Зарегистрирован: 29 май 2026, 07:53

Re: Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки

Сообщение ansible_master »

@rupaniii, реальный профит от ручного llama.cpp у меня появился только когда подключил draft-модель для спекулятивного декодинга. 14B основная + 0.5B черновая, и на коде получил +40% скорости. Вот это ollama из коробки не делает. А просто пересобрать ради пересобрать да, бессмысленно, ты правильно почувствовал.
👍1 ❤️1 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя