Llama.cpp против vLLM для self-hosted инференса в 2026, что выбрать под нагрузку
Рейтинг: 48.7% · 7 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- lonelygoblin
- Сообщения: 61
- Зарегистрирован: 12 май 2026, 12:45
Llama.cpp против vLLM для self-hosted инференса в 2026, что выбрать под нагрузку
Поднимаю self-hosted инференс LLM на проде в РФ (облако недоступно по понятным причинам, крутим на своём железе), и не могу решить между llama.cpp и vLLM. Нагрузка: чат-ассистент, пики до 50 одновременных запросов, модель 14-32B, железо 2x A100 80гб либо 4x 4090. Llama.cpp подкупает простотой и GGUF квантизацией, vLLM обещает throughput через PagedAttention и continuous batching. Кто гонял оба под реальной конкурентной нагрузкой, что в итоге выбрали и где грабли.
✔ Лучший ответ сформирован автоматически — ch5237
@smith_zhenya, разложу по полкам, гоняли оба в проде последний год под похожий профиль. Короткий ответ: для твоей нагрузки vLLM. Дальше почему и где грабли. Throughput. На 50 параллельных запросах continuous batching решает. llama.cpp с -np 8 на тех же запросах давал в 3-4 раза меньше токенов в секунду суммарно, потому что батчинг там примитивнее. vLLM держит загрузку гпу под 90 процентов, llama.…
- rocknrolla
- Сообщения: 7
- Зарегистрирован: 13 май 2026, 09:48
- thumper416
- Сообщения: 66
- Зарегистрирован: 12 май 2026, 19:00
- smith_zhenya
- Сообщения: 32
- Зарегистрирован: 11 май 2026, 02:02
Re: Llama.cpp против vLLM для self-hosted инференса в 2026, что выбрать под нагрузку
простота это иллюзия когда доходит до прода. в llama.cpp ты упрёшься в то что параллельные слоты надо руками выставлять (-np), и при переполнении он начинает тормозить всех, а не аккуратно очередить. vLLM это разруливает из коробкиlonelygoblin писал(а):llama.cpp подкупает простотой и GGUF квантизацией
Re: Llama.cpp против vLLM для self-hosted инференса в 2026, что выбрать под нагрузку
✔ Лучший ответ — сформирован автоматически
@smith_zhenya, разложу по полкам, гоняли оба в проде последний год под похожий профиль.
Короткий ответ: для твоей нагрузки vLLM. Дальше почему и где грабли.
Throughput. На 50 параллельных запросах continuous batching решает. llama.cpp с -np 8 на тех же запросах давал в 3-4 раза меньше токенов в секунду суммарно, потому что батчинг там примитивнее. vLLM держит загрузку гпу под 90 процентов, llama.cpp скакал.
Латентность под нагрузкой. У llama.cpp при заполнении слотов time to first token уезжает в небеса, новый запрос ждёт. vLLM за счёт PagedAttention и вытеснения держит TTFT предсказуемее.
Квантизация. Тут llama.cpp реально гибче, GGUF Q4_K_M качественный и жрёт мало. В vLLM бери AWQ или GPTQ 4bit, либо fp8 на A100. На 32B модели AWQ влезет в одну A100 80гб с запасом под kv cache. На 2x A100 ставь tensor parallel 2 и не парься.
4x 4090 против 2x A100. Если выбор ещё открыт, бери A100. На 4090 нет nvlink, межкарточный обмен по pcie душит tensor parallel, на 32B это чувствуется. Плюс 24гб на карту тесно под kv cache при длинном контексте. 4090 хороши когда модель влезает в одну карту и ты просто реплицируешь инстансы, а не шардишь.
Грабли vLLM: жрёт VRAM агрессивно (gpu_memory_utilization 0.9 по дефолту, оставь место), при OOM падает не всегда красиво. Версии меняются быстро, ломучие апдейты, пинуй версию жёстко. И квантизованные модели иногда требуют возни с форматом.
Итог: vLLM как основной движок, A100, tensor parallel, AWQ или fp8. llama.cpp оставь для локальной отладки и десктопных сценариев.
Короткий ответ: для твоей нагрузки vLLM. Дальше почему и где грабли.
Throughput. На 50 параллельных запросах continuous batching решает. llama.cpp с -np 8 на тех же запросах давал в 3-4 раза меньше токенов в секунду суммарно, потому что батчинг там примитивнее. vLLM держит загрузку гпу под 90 процентов, llama.cpp скакал.
Латентность под нагрузкой. У llama.cpp при заполнении слотов time to first token уезжает в небеса, новый запрос ждёт. vLLM за счёт PagedAttention и вытеснения держит TTFT предсказуемее.
Квантизация. Тут llama.cpp реально гибче, GGUF Q4_K_M качественный и жрёт мало. В vLLM бери AWQ или GPTQ 4bit, либо fp8 на A100. На 32B модели AWQ влезет в одну A100 80гб с запасом под kv cache. На 2x A100 ставь tensor parallel 2 и не парься.
4x 4090 против 2x A100. Если выбор ещё открыт, бери A100. На 4090 нет nvlink, межкарточный обмен по pcie душит tensor parallel, на 32B это чувствуется. Плюс 24гб на карту тесно под kv cache при длинном контексте. 4090 хороши когда модель влезает в одну карту и ты просто реплицируешь инстансы, а не шардишь.
Грабли vLLM: жрёт VRAM агрессивно (gpu_memory_utilization 0.9 по дефолту, оставь место), при OOM падает не всегда красиво. Версии меняются быстро, ломучие апдейты, пинуй версию жёстко. И квантизованные модели иногда требуют возни с форматом.
Итог: vLLM как основной движок, A100, tensor parallel, AWQ или fp8. llama.cpp оставь для локальной отладки и десктопных сценариев.
Re: Llama.cpp против vLLM для self-hosted инференса в 2026, что выбрать под нагрузку
вот это золото. народ упорно пытается шардить 32B на 4090 через pcie и потом удивляется что throughput в пол. реплики одной 14B на каждую карту + балансер часто быстрее чем одна большая шардированнаяlena87 писал(а):4090 хороши когда модель влезает в одну карту и ты просто реплицируешь инстансы
Re: Llama.cpp против vLLM для self-hosted инференса в 2026, что выбрать под нагрузку
vllm конечно король но он сложнее в эксплуатации, если у тебя команда из 2 человек и нагрузка не каждый день пиковая, llama.cpp проще держать живым. не всем нужен максимальный throughput, иногда нужен сон по ночам
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
- Ollama vs llama.cpp vs vLLM - что выбрать в 2026, запутался окончательно
10 ответов · 773 просмотров
-
- KMP с Compose Multiplatform или Flutter — что выбрать под новый продукт в 2026?
13 ответов · 728 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость