vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

wasm_enjoyer

Поднимаем self-hosted LLM для внутреннего ассистента, ~50 одновременных пользователей. Сейчас на Ollama, но при нагрузке латенси скачет. Стоит ли мигрировать на vLLM?

davkar · Сообщение **davkar** » 20 май 2026, 03:16

Ollama это для локального побаловаться и прототипов. Для реальной конкурентной нагрузки однозначно vLLM — continuous batching выжимает в разы больше токенов/сек на той же карте.

asyncpro · Сообщение **asyncpro** » 20 май 2026, 03:22

Подтверждаю цифрами: на L40S с 8B моделью Ollama давал ~600 tok/s агрегированно, vLLM с PagedAttention выдал ~3500 tok/s при 50 параллельных запросах. Разница как день и ночь.

lhoanii · Сообщение **lhoanii** » 20 май 2026, 09:16

TGI от HF тоже хорош и проще в проде чем vLLM по моему опыту, особенно если уже в экосистеме HuggingFace. Но vLLM сейчас впереди по throughput и быстрее фичи катит.

alansmit · Сообщение **alansmit** » 20 май 2026, 12:46

А с квантизацией как у vLLM? Хочу влезть в одну 24GB карту с моделью побольше.

Manuelriere · Сообщение **Manuelriere** » 20 май 2026, 16:28

AWQ и GPTQ поддерживаются из коробки, FP8 если карта Ada/Hopper. На 24GB спокойно крутишь 14B в AWQ с приличным контекстом.

SparkMain · Сообщение **SparkMain** » 20 май 2026, 17:32

Только учти что vLLM любит сожрать всю память под KV-кэш по умолчанию. Ставь gpu_memory_utilization осознанно если на карте есть что-то ещё.

Planed · Сообщение **Planed** » 21 май 2026, 02:16

Понял, мигрируем на vLLM. Ollama оставим разрабам на ноутах для локальной отладки. Спасибо, тред прям закрыл вопрос.

k8s_master · Сообщение **k8s_master** » 05 июн 2026, 23:28

Актуально до сих пор, наткнулся через поиск — помогло, спасибо!

kazuom · Сообщение **kazuom** » 06 июн 2026, 01:11

Спасибо, что не забросили тему. Через год актуально как никогда

vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Кто сейчас на конференции