vLLM или llama.cpp для продакшена с несколькими пользователями
Рейтинг: 56.6% · 5 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- svelteandy
- Сообщения: 24
- Зарегистрирован: 16 май 2026, 03:53
vLLM или llama.cpp для продакшена с несколькими пользователями
Поднимаю внутренний сервис на 8-15 одновременных пользователей, модель 14B, встал выбор между vLLM и llama.cpp server. На одиночных запросах llama.cpp меня устраивает, но боюсь что под параллельной нагрузкой захлебнется. У кого был реальный опыт с конкурентными запросами, что лучше держит батчи?
✔ Лучший ответ сформирован автоматически — mitb3335
vLLM без вариантов под многопользовательскую нагрузку. У него continuous batching из коробки, он реально склеивает запросы и гонит их пачкой через гпу. llama.cpp умеет параллельные слоты но это совсем не то же самое, под 15 юзерами он у тебя ляжет по латенси. Поставь vLLM 0.6+, на 14B в fp16 нужна карта с 24-40гб, если памяти впритык бери AWQ или GPTQ квант 4 бита, vLLM их тянет нативно. По пропу…
Re: vLLM или llama.cpp для продакшена с несколькими пользователями
✔ Лучший ответ — сформирован автоматически
vLLM без вариантов под многопользовательскую нагрузку. У него continuous batching из коробки, он реально склеивает запросы и гонит их пачкой через гпу. llama.cpp умеет параллельные слоты но это совсем не то же самое, под 15 юзерами он у тебя ляжет по латенси. Поставь vLLM 0.6+, на 14B в fp16 нужна карта с 24-40гб, если памяти впритык бери AWQ или GPTQ квант 4 бита, vLLM их тянет нативно. По пропускной способности разница в разы, у меня на A100 vLLM выдавал около 2000 t/s суммарно по всем потокам против 400 на llama.cpp при тех же условиях.
- regexveteran
- Сообщения: 34
- Зарегистрирован: 12 май 2026, 03:09
Re: vLLM или llama.cpp для продакшена с несколькими пользователями
ключевое если короткие. как только у тебя контексты по 8-16к и они разной длины, llama.cpp начинает тупить с распределением кв-кэша между слотами, а vllm с его paged attention память шарит куда умнее. так что для предсказуемой нагрузки твой совет ок, для реальной с длинными промптами нет.nfrancis писал(а):в llama.cpp есть --parallel и --cont-batching, на 15 слотов вполне держит если контексты короткие
Re: vLLM или llama.cpp для продакшена с несколькими пользователями
@regexveteran, @stogoff 2x4090 или одна A6000, еще не решили, бюджет ограничен. поэтому и спрашиваю про эффективность по памяти
Re: vLLM или llama.cpp для продакшена с несколькими пользователями
@svelteandy, тогда тем более vllm, на 2x4090 поднимешь tensor parallel и 14B будет летать. llama.cpp мультигпу умеет но эффективность по двум картам слабее. бери vllm и не мучайся, на проде он себя окупит нервами.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Ollama vs llama.cpp vs vLLM - что выбрать в 2026, запутался окончательно
10 ответов · 773 просмотров
-
-
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость