vLLM или llama.cpp для продакшена с несколькими пользователями

svelteandy · Сообщение **svelteandy** » 26 май 2026, 17:00

Поднимаю внутренний сервис на 8-15 одновременных пользователей, модель 14B, встал выбор между vLLM и llama.cpp server. На одиночных запросах llama.cpp меня устраивает, но боюсь что под параллельной нагрузкой захлебнется. У кого был реальный опыт с конкурентными запросами, что лучше держит батчи?

mitb3335 · Сообщение **mitb3335** » 26 май 2026, 21:25

vLLM без вариантов под многопользовательскую нагрузку. У него continuous batching из коробки, он реально склеивает запросы и гонит их пачкой через гпу. llama.cpp умеет параллельные слоты но это совсем не то же самое, под 15 юзерами он у тебя ляжет по латенси. Поставь vLLM 0.6+, на 14B в fp16 нужна карта с 24-40гб, если памяти впритык бери AWQ или GPTQ квант 4 бита, vLLM их тянет нативно. По пропускной способности разница в разы, у меня на A100 vLLM выдавал около 2000 t/s суммарно по всем потокам против 400 на llama.cpp при тех же условиях.

regexveteran

+1 за vllm, llama.cpp это про одного юзера на домашней пеке

nfrancis · Сообщение **nfrancis** » 27 май 2026, 01:25

не соглашусь что прям ляжет. в llama.cpp есть --parallel и --cont-batching, на 15 слотов вполне держит если контексты короткие. другое дело что vllm удобнее в эксплуатации.

tastee · Сообщение **tastee** » 27 май 2026, 01:35

nfrancis писал(а):в llama.cpp есть --parallel и --cont-batching, на 15 слотов вполне держит если контексты короткие

ключевое если короткие. как только у тебя контексты по 8-16к и они разной длины, llama.cpp начинает тупить с распределением кв-кэша между слотами, а vllm с его paged attention память шарит куда умнее. так что для предсказуемой нагрузки твой совет ок, для реальной с длинными промптами нет.

nixos69 · Сообщение **nixos69** » 27 май 2026, 03:25

а железо какое вообще? а то выбираем софт не зная на чем крутить будем

pyninja · Сообщение **pyninja** » 27 май 2026, 04:33

@regexveteran, @stogoff 2x4090 или одна A6000, еще не решили, бюджет ограничен. поэтому и спрашиваю про эффективность по памяти

Kireeich · Сообщение **Kireeich** » 27 май 2026, 08:08

@svelteandy, тогда тем более vllm, на 2x4090 поднимешь tensor parallel и 14B будет летать. llama.cpp мультигпу умеет но эффективность по двум картам слабее. бери vllm и не мучайся, на проде он себя окупит нервами.

vLLM или llama.cpp для продакшена с несколькими пользователями

vLLM или llama.cpp для продакшена с несколькими пользователями

Re: vLLM или llama.cpp для продакшена с несколькими пользователями

Re: vLLM или llama.cpp для продакшена с несколькими пользователями

Re: vLLM или llama.cpp для продакшена с несколькими пользователями

Re: vLLM или llama.cpp для продакшена с несколькими пользователями

Re: vLLM или llama.cpp для продакшена с несколькими пользователями

Re: vLLM или llama.cpp для продакшена с несколькими пользователями

Re: vLLM или llama.cpp для продакшена с несколькими пользователями

Кто сейчас на конференции