vLLM против llama.cpp на одной 4090 для своего API, что выбрать
Рейтинг: 48.7% · 7 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- burnedblueteam
- Сообщения: 30
- Зарегистрирован: 11 май 2026, 21:39
vLLM против llama.cpp на одной 4090 для своего API, что выбрать
Поднимаю свой OpenAI-совместимый эндпоинт на одной 4090 для пары внутренних сервисов, и не могу решить между vLLM и llama.cpp server. Нагрузка не дикая, но бывает 3-5 параллельных запросов в пик. На llama.cpp всё просто и я его знаю, но боюсь что на параллельных запросах он просядет. vLLM вроде король батчинга, но там awq/gptq кванты, отдельная возня со сборкой и он капризнее к версиям cuda. Что реально выбрать под этот сценарий, если модель в районе 14-32B?
✔ Лучший ответ сформирован автоматически — asynclover
Распишу по делу раз уж сам недавно через это прошёл. Сценарий ровно твой: 4090, внутренний API, пики по 4-5 запросов. Поставил оба, погонял неделю. llama.cpp server: Qwen3-14B Q5_K_M, одиночный запрос 50 т/с, шикарно. Но при 4 параллельных суммарная пропускная около 70-80 т/с на всех, то есть каждый клиент получает грустные 18-20. vLLM: тот же 14B в awq (4 бит), одиночный запрос медленнее, около …
Re: vLLM против llama.cpp на одной 4090 для своего API, что выбрать
для параллельных запросов однозначно vLLM, у него continuous batching и PagedAttention, он именно под throughput с несколькими клиентами сделан. llama.cpp на 5 одновременных запросах начнёт их в очередь ставить и latency поедет.
- asynclover
- Сообщения: 70
- Зарегистрирован: 13 май 2026, 04:35
Re: vLLM против llama.cpp на одной 4090 для своего API, что выбрать
✔ Лучший ответ — сформирован автоматически
Распишу по делу раз уж сам недавно через это прошёл. Сценарий ровно твой: 4090, внутренний API, пики по 4-5 запросов. Поставил оба, погонял неделю. llama.cpp server: Qwen3-14B Q5_K_M, одиночный запрос 50 т/с, шикарно. Но при 4 параллельных суммарная пропускная около 70-80 т/с на всех, то есть каждый клиент получает грустные 18-20. vLLM: тот же 14B в awq (4 бит), одиночный запрос медленнее, около 42 т/с почему-то, зато при 4 параллельных суммарно держит 180-200 т/с и каждый клиент чувствует себя нормально. Вывод: если у тебя реально бывает конкурентность, vLLM выигрывает за счёт батчинга, llama.cpp на одиночке быстрее но не масштабируется по клиентам. Подводные камни vLLM: жёстко относится к версии cuda и torch, ставь через отдельный venv или докер, иначе поседеешь. И прогрев первого запроса дольше. Память: vLLM сразу отжирает почти всю vram под kv-кэш пул, это нормально, он так предсказуемость latency держит. Для 14-32B на одной 4090 я в итоге остался на vLLM в докере, флаг --max-model-len выставь под свою задачу чтобы кэш не раздувался.
Re: vLLM против llama.cpp на одной 4090 для своего API, что выбрать
вот это многих пугает, открывают nvidia-smi видят 23 гб занято и думают утечка. А это он специально пул резервирует под --gpu-memory-utilization 0.9. Регулируется флагом если надо подвинуться. Хорошо что расписал, новички на этом панику разводят постоянно.asynclover писал(а):vLLM сразу отжирает почти всю vram под kv-кэш пул, это нормально
Re: vLLM против llama.cpp на одной 4090 для своего API, что выбрать
а если запросы редкие и по одному, то весь батчинг vLLM не нужен и llama.cpp проще и быстрее на одиночке. Не тащите vLLM туда где один юзер, это оверкилл с его прожорливостью к памяти и капризами. По задаче смотрите, а не по хайпу.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Тренировка LoRA своего лица: сколько фоток, какие настройки, на чём учить
10 ответов · 4293 просмотров
-
-
- Бросить найм ради своего проекта: при каком MRR вы реально решились уйти с работы?
10 ответов · 2040 просмотров
-
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость