vLLM против llama.cpp на одной 4090 для своего API, что выбрать

Рейтинг: 48.7% · 7 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
burnedblueteam
Сообщения: 30
Зарегистрирован: 11 май 2026, 21:39

vLLM против llama.cpp на одной 4090 для своего API, что выбрать

Сообщение burnedblueteam »

Поднимаю свой OpenAI-совместимый эндпоинт на одной 4090 для пары внутренних сервисов, и не могу решить между vLLM и llama.cpp server. Нагрузка не дикая, но бывает 3-5 параллельных запросов в пик. На llama.cpp всё просто и я его знаю, но боюсь что на параллельных запросах он просядет. vLLM вроде король батчинга, но там awq/gptq кванты, отдельная возня со сборкой и он капризнее к версиям cuda. Что реально выбрать под этот сценарий, если модель в районе 14-32B?
👍 ❤️1 🔥 😄 🤔3
✔ Лучший ответ сформирован автоматически — asynclover
Распишу по делу раз уж сам недавно через это прошёл. Сценарий ровно твой: 4090, внутренний API, пики по 4-5 запросов. Поставил оба, погонял неделю. llama.cpp server: Qwen3-14B Q5_K_M, одиночный запрос 50 т/с, шикарно. Но при 4 параллельных суммарная пропускная около 70-80 т/с на всех, то есть каждый клиент получает грустные 18-20. vLLM: тот же 14B в awq (4 бит), одиночный запрос медленнее, около …
Перейти к ответу →
Аватара пользователя
trlounge
Сообщения: 4
Зарегистрирован: 15 май 2026, 22:57

Re: vLLM против llama.cpp на одной 4090 для своего API, что выбрать

Сообщение trlounge »

для параллельных запросов однозначно vLLM, у него continuous batching и PagedAttention, он именно под throughput с несколькими клиентами сделан. llama.cpp на 5 одновременных запросах начнёт их в очередь ставить и latency поедет.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
Pudakris
Сообщения: 8
Зарегистрирован: 15 май 2026, 08:47

Re: vLLM против llama.cpp на одной 4090 для своего API, что выбрать

Сообщение Pudakris »

если модель влезает в 24 гб в awq, бери vLLM и не думай. Разница в пропускной способности на батче в разы, не на проценты. llama.cpp это про один юзер один запрос.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
asynclover
Сообщения: 70
Зарегистрирован: 13 май 2026, 04:35

Re: vLLM против llama.cpp на одной 4090 для своего API, что выбрать

Сообщение asynclover »

✔ Лучший ответ — сформирован автоматически
Распишу по делу раз уж сам недавно через это прошёл. Сценарий ровно твой: 4090, внутренний API, пики по 4-5 запросов. Поставил оба, погонял неделю. llama.cpp server: Qwen3-14B Q5_K_M, одиночный запрос 50 т/с, шикарно. Но при 4 параллельных суммарная пропускная около 70-80 т/с на всех, то есть каждый клиент получает грустные 18-20. vLLM: тот же 14B в awq (4 бит), одиночный запрос медленнее, около 42 т/с почему-то, зато при 4 параллельных суммарно держит 180-200 т/с и каждый клиент чувствует себя нормально. Вывод: если у тебя реально бывает конкурентность, vLLM выигрывает за счёт батчинга, llama.cpp на одиночке быстрее но не масштабируется по клиентам. Подводные камни vLLM: жёстко относится к версии cuda и torch, ставь через отдельный venv или докер, иначе поседеешь. И прогрев первого запроса дольше. Память: vLLM сразу отжирает почти всю vram под kv-кэш пул, это нормально, он так предсказуемость latency держит. Для 14-32B на одной 4090 я в итоге остался на vLLM в докере, флаг --max-model-len выставь под свою задачу чтобы кэш не раздувался.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
misha12
Сообщения: 67
Зарегистрирован: 11 май 2026, 04:09

Re: vLLM против llama.cpp на одной 4090 для своего API, что выбрать

Сообщение misha12 »

asynclover писал(а):vLLM сразу отжирает почти всю vram под kv-кэш пул, это нормально
вот это многих пугает, открывают nvidia-smi видят 23 гб занято и думают утечка. А это он специально пул резервирует под --gpu-memory-utilization 0.9. Регулируется флагом если надо подвинуться. Хорошо что расписал, новички на этом панику разводят постоянно.
👍 ❤️ 🔥 😄2 🤔
Аватара пользователя
rhinz
Сообщения: 10
Зарегистрирован: 23 май 2026, 23:20

Re: vLLM против llama.cpp на одной 4090 для своего API, что выбрать

Сообщение rhinz »

докер для vLLM это маст, ставить его в системный питон это путь к боли с зависимостями. Через образ всё заводится за 5 минут.
👍1 ❤️ 🔥 😄 🤔1
Аватара пользователя
depechie
Сообщения: 67
Зарегистрирован: 11 май 2026, 11:32

Re: vLLM против llama.cpp на одной 4090 для своего API, что выбрать

Сообщение depechie »

а если запросы редкие и по одному, то весь батчинг vLLM не нужен и llama.cpp проще и быстрее на одиночке. Не тащите vLLM туда где один юзер, это оверкилл с его прожорливостью к памяти и капризами. По задаче смотрите, а не по хайпу.
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость