vLLM против llama.cpp для своего api с нагрузкой, что выбрать в 2026
Рейтинг: 49% · 10 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- vikakychma
- Сообщения: 5
- Зарегистрирован: 11 май 2026, 08:21
vLLM против llama.cpp для своего api с нагрузкой, что выбрать в 2026
делаю внутренний сервис с llm api на своих картах, нужно держать несколько одновременных запросов. что брать под нагрузку, vLLM или llama-server? llama.cpp понятнее и gguf удобнее, но я читал что vLLM сильно выигрывает на параллельных запросах за счёт continuous batching и paged attention. одиночный запрос меня не волнует, важна суммарная пропускная способность когда 10-20 юзеров долбят одновременно. у кого есть прод опыт, насколько реально разница в throughput?
✔ Лучший ответ сформирован автоматически — PostgresLord
по теме развёрнуто, раз прод. ставили оба, остановились на vLLM. конфиг: 2x A100 80гб, модель 70B в fp8, tensor parallel 2. под пиком 20-25 одновременных запросов держим ~1400 t/s суммарно, латенси первого токена в районе 200-400мс. ключевое что надо понять: vLLM требует подбора --gpu-memory-utilization и --max-num-seqs под твою нагрузку, по дефолту он может либо жадничать память либо ограничиват…
Re: vLLM против llama.cpp для своего api с нагрузкой, что выбрать в 2026
vLLM. на одиночном запросе llama.cpp может даже не уступать, но как только идёт конкурентная нагрузка vLLM рвёт за счёт continuous batching, у тебя суммарный throughput в разы выше. llama.cpp хоть и научился параллельным слотам, но это не тот уровень. для прода с нагрузкой однозначно vLLM.
- k8s_master
- Сообщения: 44
- Зарегистрирован: 11 май 2026, 19:55
Re: vLLM против llama.cpp для своего api с нагрузкой, что выбрать в 2026
тогда даже не думай, vLLM. весь смысл continuous batching ровно в твоём кейсе. под 10-20 параллельных он держит загрузку gpu под 90%+ и общий t/s раз в 5-8 выше llama.cpp на той же карте. llama.cpp хорош для одного юзера на десктопе, для многопользовательского api это vLLM или sglang.vikakychma писал(а):одиночный запрос меня не волнует, важна суммарная пропускная способность
- user_pasha
- Сообщения: 4
- Зарегистрирован: 12 май 2026, 12:14
- PostgresLord
- Сообщения: 2
- Зарегистрирован: 11 май 2026, 04:17
Re: vLLM против llama.cpp для своего api с нагрузкой, что выбрать в 2026
✔ Лучший ответ — сформирован автоматически
по теме развёрнуто, раз прод. ставили оба, остановились на vLLM. конфиг: 2x A100 80гб, модель 70B в fp8, tensor parallel 2. под пиком 20-25 одновременных запросов держим ~1400 t/s суммарно, латенси первого токена в районе 200-400мс. ключевое что надо понять: vLLM требует подбора --gpu-memory-utilization и --max-num-seqs под твою нагрузку, по дефолту он может либо жадничать память либо ограничивать конкуренцию. кванты только fp8/awq/gptq, gguf забудь. деплой в докере, версия фиксированная потому что они ломают совместимость между релизами регулярно. если бюджет на A100 нет и сидите на 3090/4090, fp8 не везде заводится по compute capability, тогда awq. llama.cpp оставили только для дев машин разрабов где gguf удобно и юзер один. для api под людей vLLM, не пожалели.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Тренировка LoRA своего лица: сколько фоток, какие настройки, на чём учить
10 ответов · 4293 просмотров
-
-
- Бросить найм ради своего проекта: при каком MRR вы реально решились уйти с работы?
10 ответов · 2040 просмотров
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость