vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

maria7132 · Вт май 19, 2026 6:39 pm

Поднимаем self-hosted LLM для внутреннего ассистента, ~50 одновременных пользователей. Сейчас на Ollama, но при нагрузке латенси скачет. Стоит ли мигрировать на vLLM?

arseny_omega41 · Ср май 20, 2026 12:16 am

Ollama это для локального побаловаться и прототипов. Для реальной конкурентной нагрузки однозначно vLLM — continuous batching выжимает в разы больше токенов/сек на той же карте.

ruslan_pro · Ср май 20, 2026 12:22 am

Подтверждаю цифрами: на L40S с 8B моделью Ollama давал ~600 tok/s агрегированно, vLLM с PagedAttention выдал ~3500 tok/s при 50 параллельных запросах. Разница как день и ночь.

netapp9663 · Ср май 20, 2026 6:16 am

TGI от HF тоже хорош и проще в проде чем vLLM по моему опыту, особенно если уже в экосистеме HuggingFace. Но vLLM сейчас впереди по throughput и быстрее фичи катит.

fluxnode7801 · Ср май 20, 2026 9:46 am

А с квантизацией как у vLLM? Хочу влезть в одну 24GB карту с моделью побольше.

tcpvector5946 · Ср май 20, 2026 1:28 pm

AWQ и GPTQ поддерживаются из коробки, FP8 если карта Ada/Hopper. На 24GB спокойно крутишь 14B в AWQ с приличным контекстом.

kernelneon4044 · Ср май 20, 2026 2:32 pm

Только учти что vLLM любит сожрать всю память под KV-кэш по умолчанию. Ставь gpu_memory_utilization осознанно если на карте есть что-то ещё.

kolya557 · Ср май 20, 2026 11:16 pm

Понял, мигрируем на vLLM. Ollama оставим разрабам на ноутах для локальной отладки. Спасибо, тред прям закрыл вопрос.

egor_ml13 · Пт июн 05, 2026 8:28 pm

Актуально до сих пор, наткнулся через поиск — помогло, спасибо!

appflow9934 · Пт июн 05, 2026 10:11 pm

Спасибо, что не забросили тему. Через год актуально как никогда

Cyberlake

vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Кто сейчас на конференции