Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки
Рейтинг: 66.7% · 13 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки
Два дня собирал llama.cpp из исходников с флагами под свою карту, крутил -ngl, batch size, flash attention, а в итоге та же модель в ollama из коробки выдаёт почти те же токены при нуле настроек. Чувствую себя идиотом. 4080 16гб, модель 14B Q4_K_M. Где смысл ручной сборки если обёртка которая поверх llama.cpp же и работает делает не хуже? Или я где-то налажал с флагами и потенциал не раскрыл?
✔ Лучший ответ сформирован автоматически — Version
togashi писал(а):Взял бы готовый бинарь с релизов готовые бинари часто собраны без агрессивных оптимизаций под конкретный кэш и иногда без свежих CUDA-фишек. Под конкретную карту самосбор иногда даёт 5-10%. Но именно иногда, и ОП как раз попал в случай когда не дало. На 14B Q4 на 4080 ты упираешься не в то что чинится флагами компилятора.
Re: Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки
ollama это и есть llama.cpp под капотом с нормальными дефолтами. Так что ты два дня воспроизводил то что они уже настроили. Ручная сборка имеет смысл когда тебе нужно что-то чего ollama не отдаёт: спекулятивный декодинг, точный контроль над сплитом, экзотические кванты, свой грамматический сэмплер. Для дефолтного чата выигрыша почти нет.
Re: Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки
не идиот, просто узнал на своём опыте что ollama не тормозная обёртка а вполне вменяемый дефолт. Многие думают что раз обёртка значит медленно, и собирают руками чтобы быстрее. А там тот же движок. Знание полезное, два дня не зря.paul24 писал(а):Чувствую себя идиотом
Re: Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки
✔ Лучший ответ — сформирован автоматически
готовые бинари часто собраны без агрессивных оптимизаций под конкретный кэш и иногда без свежих CUDA-фишек. Под конкретную карту самосбор иногда даёт 5-10%. Но именно иногда, и ОП как раз попал в случай когда не дало. На 14B Q4 на 4080 ты упираешься не в то что чинится флагами компилятора.togashi писал(а):Взял бы готовый бинарь с релизов
- ansible_master
- Сообщения: 2
- Зарегистрирован: 29 май 2026, 07:53
Re: Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки
@rupaniii, реальный профит от ручного llama.cpp у меня появился только когда подключил draft-модель для спекулятивного декодинга. 14B основная + 0.5B черновая, и на коде получил +40% скорости. Вот это ollama из коробки не делает. А просто пересобрать ради пересобрать да, бессмысленно, ты правильно почувствовал.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Отдал 159к за курс с гарантией трудоустройства. Спойлер: гарантия оказалась с двойным дном
5 ответов · 5 просмотров
-
- Accuracy 0.97 на проде модель оказалась бесполезной, как мы прокололись на метрике
7 ответов · 1 просмотров
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость