Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки

paul24 · Сообщение **paul24** » 13 май 2026, 14:40

Два дня собирал llama.cpp из исходников с флагами под свою карту, крутил -ngl, batch size, flash attention, а в итоге та же модель в ollama из коробки выдаёт почти те же токены при нуле настроек. Чувствую себя идиотом. 4080 16гб, модель 14B Q4_K_M. Где смысл ручной сборки если обёртка которая поверх llama.cpp же и работает делает не хуже? Или я где-то налажал с флагами и потенциал не раскрыл?

kennysin · Сообщение **kennysin** » 13 май 2026, 15:42

ollama это и есть llama.cpp под капотом с нормальными дефолтами. Так что ты два дня воспроизводил то что они уже настроили. Ручная сборка имеет смысл когда тебе нужно что-то чего ollama не отдаёт: спекулятивный декодинг, точный контроль над сплитом, экзотические кванты, свой грамматический сэмплер. Для дефолтного чата выигрыша почти нет.

idlebteam · Сообщение **idlebteam** » 13 май 2026, 18:47

флеш аттеншн включил? -fa. Если нет, то на 4080 ты теряешь прилично, особенно на контексте. ollama его врубает сам.

rupaniii · Сообщение **rupaniii** » 13 май 2026, 23:11

paul24 писал(а):Чувствую себя идиотом

не идиот, просто узнал на своём опыте что ollama не тормозная обёртка а вполне вменяемый дефолт. Многие думают что раз обёртка значит медленно, и собирают руками чтобы быстрее. А там тот же движок. Знание полезное, два дня не зря.

togashi · Сообщение **togashi** » 14 май 2026, 04:03

а зачем тебе вообще было собирать. Взял бы готовый бинарь с релизов и всё, та же скорость без двух дней компиляции.

Version · Сообщение **Version** » 14 май 2026, 04:54

togashi писал(а):Взял бы готовый бинарь с релизов

готовые бинари часто собраны без агрессивных оптимизаций под конкретный кэш и иногда без свежих CUDA-фишек. Под конкретную карту самосбор иногда даёт 5-10%. Но именно иногда, и ОП как раз попал в случай когда не дало. На 14B Q4 на 4080 ты упираешься не в то что чинится флагами компилятора.

ansible_master

@rupaniii, реальный профит от ручного llama.cpp у меня появился только когда подключил draft-модель для спекулятивного декодинга. 14B основная + 0.5B черновая, и на коде получил +40% скорости. Вот это ollama из коробки не делает. А просто пересобрать ради пересобрать да, бессмысленно, ты правильно почувствовал.

Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки

Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки

Re: Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки

Re: Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки

Re: Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки

Re: Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки

Re: Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки

Re: Потратил выходные на тонкую настройку llama.cpp и она оказалась медленнее ollama из коробки

Кто сейчас на конференции