vLLM или llama.cpp для продакшена с несколькими пользователями

Рейтинг: 56.6% · 5 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
svelteandy
Сообщения: 24
Зарегистрирован: 16 май 2026, 03:53

vLLM или llama.cpp для продакшена с несколькими пользователями

Сообщение svelteandy »

Поднимаю внутренний сервис на 8-15 одновременных пользователей, модель 14B, встал выбор между vLLM и llama.cpp server. На одиночных запросах llama.cpp меня устраивает, но боюсь что под параллельной нагрузкой захлебнется. У кого был реальный опыт с конкурентными запросами, что лучше держит батчи?
👍3 ❤️1 🔥2 😄 🤔
✔ Лучший ответ сформирован автоматически — mitb3335
vLLM без вариантов под многопользовательскую нагрузку. У него continuous batching из коробки, он реально склеивает запросы и гонит их пачкой через гпу. llama.cpp умеет параллельные слоты но это совсем не то же самое, под 15 юзерами он у тебя ляжет по латенси. Поставь vLLM 0.6+, на 14B в fp16 нужна карта с 24-40гб, если памяти впритык бери AWQ или GPTQ квант 4 бита, vLLM их тянет нативно. По пропу…
Перейти к ответу →
Аватара пользователя
mitb3335
Сообщения: 5
Зарегистрирован: 15 май 2026, 19:03

Re: vLLM или llama.cpp для продакшена с несколькими пользователями

Сообщение mitb3335 »

✔ Лучший ответ — сформирован автоматически
vLLM без вариантов под многопользовательскую нагрузку. У него continuous batching из коробки, он реально склеивает запросы и гонит их пачкой через гпу. llama.cpp умеет параллельные слоты но это совсем не то же самое, под 15 юзерами он у тебя ляжет по латенси. Поставь vLLM 0.6+, на 14B в fp16 нужна карта с 24-40гб, если памяти впритык бери AWQ или GPTQ квант 4 бита, vLLM их тянет нативно. По пропускной способности разница в разы, у меня на A100 vLLM выдавал около 2000 t/s суммарно по всем потокам против 400 на llama.cpp при тех же условиях.
👍1 ❤️ 🔥1 😄 🤔
Аватара пользователя
regexveteran
Сообщения: 34
Зарегистрирован: 12 май 2026, 03:09

Re: vLLM или llama.cpp для продакшена с несколькими пользователями

Сообщение regexveteran »

+1 за vllm, llama.cpp это про одного юзера на домашней пеке
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
nfrancis
Сообщения: 20
Зарегистрирован: 17 май 2026, 23:25

Re: vLLM или llama.cpp для продакшена с несколькими пользователями

Сообщение nfrancis »

не соглашусь что прям ляжет. в llama.cpp есть --parallel и --cont-batching, на 15 слотов вполне держит если контексты короткие. другое дело что vllm удобнее в эксплуатации.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
tastee
Сообщения: 19
Зарегистрирован: 12 май 2026, 15:42

Re: vLLM или llama.cpp для продакшена с несколькими пользователями

Сообщение tastee »

nfrancis писал(а):в llama.cpp есть --parallel и --cont-batching, на 15 слотов вполне держит если контексты короткие
ключевое если короткие. как только у тебя контексты по 8-16к и они разной длины, llama.cpp начинает тупить с распределением кв-кэша между слотами, а vllm с его paged attention память шарит куда умнее. так что для предсказуемой нагрузки твой совет ок, для реальной с длинными промптами нет.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
nixos69
Сообщения: 35
Зарегистрирован: 12 май 2026, 17:56

Re: vLLM или llama.cpp для продакшена с несколькими пользователями

Сообщение nixos69 »

а железо какое вообще? а то выбираем софт не зная на чем крутить будем
👍1 ❤️1 🔥 😄1 🤔
Аватара пользователя
pyninja
Сообщения: 16
Зарегистрирован: 20 май 2026, 13:20

Re: vLLM или llama.cpp для продакшена с несколькими пользователями

Сообщение pyninja »

@regexveteran, @stogoff 2x4090 или одна A6000, еще не решили, бюджет ограничен. поэтому и спрашиваю про эффективность по памяти
👍 ❤️ 🔥2 😄1 🤔
Аватара пользователя
Kireeich
Сообщения: 20
Зарегистрирован: 14 май 2026, 10:49

Re: vLLM или llama.cpp для продакшена с несколькими пользователями

Сообщение Kireeich »

@svelteandy, тогда тем более vllm, на 2x4090 поднимешь tensor parallel и 14B будет летать. llama.cpp мультигпу умеет но эффективность по двум картам слабее. бери vllm и не мучайся, на проде он себя окупит нервами.
👍2 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость