vLLM против llama.cpp на одной 4090 для своего API, что выбрать

burnedblueteam

Поднимаю свой OpenAI-совместимый эндпоинт на одной 4090 для пары внутренних сервисов, и не могу решить между vLLM и llama.cpp server. Нагрузка не дикая, но бывает 3-5 параллельных запросов в пик. На llama.cpp всё просто и я его знаю, но боюсь что на параллельных запросах он просядет. vLLM вроде король батчинга, но там awq/gptq кванты, отдельная возня со сборкой и он капризнее к версиям cuda. Что реально выбрать под этот сценарий, если модель в районе 14-32B?

trlounge · Сообщение **trlounge** » 08 июн 2026, 11:24

для параллельных запросов однозначно vLLM, у него continuous batching и PagedAttention, он именно под throughput с несколькими клиентами сделан. llama.cpp на 5 одновременных запросах начнёт их в очередь ставить и latency поедет.

Pudakris · Сообщение **Pudakris** » 08 июн 2026, 16:16

если модель влезает в 24 гб в awq, бери vLLM и не думай. Разница в пропускной способности на батче в разы, не на проценты. llama.cpp это про один юзер один запрос.

asynclover · Сообщение **asynclover** » 08 июн 2026, 17:05

Распишу по делу раз уж сам недавно через это прошёл. Сценарий ровно твой: 4090, внутренний API, пики по 4-5 запросов. Поставил оба, погонял неделю. llama.cpp server: Qwen3-14B Q5_K_M, одиночный запрос 50 т/с, шикарно. Но при 4 параллельных суммарная пропускная около 70-80 т/с на всех, то есть каждый клиент получает грустные 18-20. vLLM: тот же 14B в awq (4 бит), одиночный запрос медленнее, около 42 т/с почему-то, зато при 4 параллельных суммарно держит 180-200 т/с и каждый клиент чувствует себя нормально. Вывод: если у тебя реально бывает конкурентность, vLLM выигрывает за счёт батчинга, llama.cpp на одиночке быстрее но не масштабируется по клиентам. Подводные камни vLLM: жёстко относится к версии cuda и torch, ставь через отдельный venv или докер, иначе поседеешь. И прогрев первого запроса дольше. Память: vLLM сразу отжирает почти всю vram под kv-кэш пул, это нормально, он так предсказуемость latency держит. Для 14-32B на одной 4090 я в итоге остался на vLLM в докере, флаг --max-model-len выставь под свою задачу чтобы кэш не раздувался.

misha12 · Сообщение **misha12** » 08 июн 2026, 17:25

asynclover писал(а):vLLM сразу отжирает почти всю vram под kv-кэш пул, это нормально

вот это многих пугает, открывают nvidia-smi видят 23 гб занято и думают утечка. А это он специально пул резервирует под --gpu-memory-utilization 0.9. Регулируется флагом если надо подвинуться. Хорошо что расписал, новички на этом панику разводят постоянно.

rhinz · Сообщение **rhinz** » 08 июн 2026, 20:05

докер для vLLM это маст, ставить его в системный питон это путь к боли с зависимостями. Через образ всё заводится за 5 минут.

depechie · Сообщение **depechie** » 08 июн 2026, 20:59

а если запросы редкие и по одному, то весь батчинг vLLM не нужен и llama.cpp проще и быстрее на одиночке. Не тащите vLLM туда где один юзер, это оверкилл с его прожорливостью к памяти и капризами. По задаче смотрите, а не по хайпу.

vLLM против llama.cpp на одной 4090 для своего API, что выбрать

vLLM против llama.cpp на одной 4090 для своего API, что выбрать

Re: vLLM против llama.cpp на одной 4090 для своего API, что выбрать

Re: vLLM против llama.cpp на одной 4090 для своего API, что выбрать

Re: vLLM против llama.cpp на одной 4090 для своего API, что выбрать

Re: vLLM против llama.cpp на одной 4090 для своего API, что выбрать

Re: vLLM против llama.cpp на одной 4090 для своего API, что выбрать

Re: vLLM против llama.cpp на одной 4090 для своего API, что выбрать

Кто сейчас на конференции