Llama.cpp против vLLM для self-hosted инференса в 2026, что выбрать под нагрузку

Рейтинг: 48.7% · 7 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
lonelygoblin
Сообщения: 61
Зарегистрирован: 12 май 2026, 12:45

Llama.cpp против vLLM для self-hosted инференса в 2026, что выбрать под нагрузку

Сообщение lonelygoblin »

Поднимаю self-hosted инференс LLM на проде в РФ (облако недоступно по понятным причинам, крутим на своём железе), и не могу решить между llama.cpp и vLLM. Нагрузка: чат-ассистент, пики до 50 одновременных запросов, модель 14-32B, железо 2x A100 80гб либо 4x 4090. Llama.cpp подкупает простотой и GGUF квантизацией, vLLM обещает throughput через PagedAttention и continuous batching. Кто гонял оба под реальной конкурентной нагрузкой, что в итоге выбрали и где грабли.
👍 ❤️1 🔥1 😄 🤔
✔ Лучший ответ сформирован автоматически — ch5237
@smith_zhenya, разложу по полкам, гоняли оба в проде последний год под похожий профиль. Короткий ответ: для твоей нагрузки vLLM. Дальше почему и где грабли. Throughput. На 50 параллельных запросах continuous batching решает. llama.cpp с -np 8 на тех же запросах давал в 3-4 раза меньше токенов в секунду суммарно, потому что батчинг там примитивнее. vLLM держит загрузку гпу под 90 процентов, llama.…
Перейти к ответу →
Аватара пользователя
rocknrolla
Сообщения: 7
Зарегистрирован: 13 май 2026, 09:48

Re: Llama.cpp против vLLM для self-hosted инференса в 2026, что выбрать под нагрузку

Сообщение rocknrolla »

под 50 параллельных запросов llama.cpp даже не рассматривай. он хорош для одиночного инференса и локалки, но continuous batching у vLLM рвёт его в разы по throughput на конкуренции. бери vLLM
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
thumper416
Сообщения: 66
Зарегистрирован: 12 май 2026, 19:00

Re: Llama.cpp против vLLM для self-hosted инференса в 2026, что выбрать под нагрузку

Сообщение thumper416 »

на 4090 кстати vLLM может капризничать с tensor parallel, sm_89 не всегда дружит с некоторыми кернелами. на A100 поедет без вопросов. учти при выборе железа
👍1 ❤️2 🔥 😄1 🤔
Аватара пользователя
smith_zhenya
Сообщения: 32
Зарегистрирован: 11 май 2026, 02:02

Re: Llama.cpp против vLLM для self-hosted инференса в 2026, что выбрать под нагрузку

Сообщение smith_zhenya »

lonelygoblin писал(а):llama.cpp подкупает простотой и GGUF квантизацией
простота это иллюзия когда доходит до прода. в llama.cpp ты упрёшься в то что параллельные слоты надо руками выставлять (-np), и при переполнении он начинает тормозить всех, а не аккуратно очередить. vLLM это разруливает из коробки
👍 ❤️2 🔥1 😄 🤔
Аватара пользователя
lena87
Сообщения: 18
Зарегистрирован: 11 май 2026, 04:24

Re: Llama.cpp против vLLM для self-hosted инференса в 2026, что выбрать под нагрузку

Сообщение lena87 »

sglang ещё посмотри, под чат с общими префиксами (системный промпт один на всех) он за счёт radix cache может обойти vLLM. для ассистента где у всех одинаковый длинный system prompt это прям заметно
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
ch5237
Сообщения: 12
Зарегистрирован: 11 май 2026, 15:51

Re: Llama.cpp против vLLM для self-hosted инференса в 2026, что выбрать под нагрузку

Сообщение ch5237 »

✔ Лучший ответ — сформирован автоматически
@smith_zhenya, разложу по полкам, гоняли оба в проде последний год под похожий профиль.

Короткий ответ: для твоей нагрузки vLLM. Дальше почему и где грабли.

Throughput. На 50 параллельных запросах continuous batching решает. llama.cpp с -np 8 на тех же запросах давал в 3-4 раза меньше токенов в секунду суммарно, потому что батчинг там примитивнее. vLLM держит загрузку гпу под 90 процентов, llama.cpp скакал.

Латентность под нагрузкой. У llama.cpp при заполнении слотов time to first token уезжает в небеса, новый запрос ждёт. vLLM за счёт PagedAttention и вытеснения держит TTFT предсказуемее.

Квантизация. Тут llama.cpp реально гибче, GGUF Q4_K_M качественный и жрёт мало. В vLLM бери AWQ или GPTQ 4bit, либо fp8 на A100. На 32B модели AWQ влезет в одну A100 80гб с запасом под kv cache. На 2x A100 ставь tensor parallel 2 и не парься.

4x 4090 против 2x A100. Если выбор ещё открыт, бери A100. На 4090 нет nvlink, межкарточный обмен по pcie душит tensor parallel, на 32B это чувствуется. Плюс 24гб на карту тесно под kv cache при длинном контексте. 4090 хороши когда модель влезает в одну карту и ты просто реплицируешь инстансы, а не шардишь.

Грабли vLLM: жрёт VRAM агрессивно (gpu_memory_utilization 0.9 по дефолту, оставь место), при OOM падает не всегда красиво. Версии меняются быстро, ломучие апдейты, пинуй версию жёстко. И квантизованные модели иногда требуют возни с форматом.

Итог: vLLM как основной движок, A100, tensor parallel, AWQ или fp8. llama.cpp оставь для локальной отладки и десктопных сценариев.
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
Rhemix
Сообщения: 71
Зарегистрирован: 12 май 2026, 03:33

Re: Llama.cpp против vLLM для self-hosted инференса в 2026, что выбрать под нагрузку

Сообщение Rhemix »

lena87 писал(а):4090 хороши когда модель влезает в одну карту и ты просто реплицируешь инстансы
вот это золото. народ упорно пытается шардить 32B на 4090 через pcie и потом удивляется что throughput в пол. реплики одной 14B на каждую карту + балансер часто быстрее чем одна большая шардированная
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
go21
Сообщения: 10
Зарегистрирован: 17 май 2026, 23:11

Re: Llama.cpp против vLLM для self-hosted инференса в 2026, что выбрать под нагрузку

Сообщение go21 »

а в РФ как с поставкой A100 сейчас вообще, по серым каналам же конский ценник. может проще 4090 пачкой набрать чисто по бюджету. посчитай токены на рубль а не абсолютный throughput
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
pharside
Сообщения: 25
Зарегистрирован: 15 май 2026, 18:41

Re: Llama.cpp против vLLM для self-hosted инференса в 2026, что выбрать под нагрузку

Сообщение pharside »

vllm конечно король но он сложнее в эксплуатации, если у тебя команда из 2 человек и нагрузка не каждый день пиковая, llama.cpp проще держать живым. не всем нужен максимальный throughput, иногда нужен сон по ночам
👍3 ❤️ 🔥 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость