vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Рейтинг: 52.9% · 28 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
maria7132
Сообщения: 1
Зарегистрирован: Ср май 13, 2026 5:39 am

vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Сообщение maria7132 »

Поднимаем self-hosted LLM для внутреннего ассистента, ~50 одновременных пользователей. Сейчас на Ollama, но при нагрузке латенси скачет. Стоит ли мигрировать на vLLM?
👍 ❤️ 🔥1 😄 🤔1
Аватара пользователя
arseny_omega41
Сообщения: 2
Зарегистрирован: Ср май 13, 2026 6:21 pm

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Сообщение arseny_omega41 »

Ollama это для локального побаловаться и прототипов. Для реальной конкурентной нагрузки однозначно vLLM — continuous batching выжимает в разы больше токенов/сек на той же карте.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
ruslan_pro
Сообщения: 24
Зарегистрирован: Чт май 14, 2026 3:04 am

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Сообщение ruslan_pro »

Подтверждаю цифрами: на L40S с 8B моделью Ollama давал ~600 tok/s агрегированно, vLLM с PagedAttention выдал ~3500 tok/s при 50 параллельных запросах. Разница как день и ночь.
👍1 ❤️ 🔥1 😄 🤔
Аватара пользователя
netapp9663
Сообщения: 1
Зарегистрирован: Ср май 13, 2026 8:42 pm

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Сообщение netapp9663 »

TGI от HF тоже хорош и проще в проде чем vLLM по моему опыту, особенно если уже в экосистеме HuggingFace. Но vLLM сейчас впереди по throughput и быстрее фичи катит.
👍1 ❤️ 🔥 😄 🤔1
Аватара пользователя
fluxnode7801
Сообщения: 16
Зарегистрирован: Пн май 11, 2026 9:35 am

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Сообщение fluxnode7801 »

А с квантизацией как у vLLM? Хочу влезть в одну 24GB карту с моделью побольше.
👍 ❤️2 🔥1 😄 🤔
Аватара пользователя
tcpvector5946
Сообщения: 5
Зарегистрирован: Сб май 16, 2026 5:30 am

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Сообщение tcpvector5946 »

AWQ и GPTQ поддерживаются из коробки, FP8 если карта Ada/Hopper. На 24GB спокойно крутишь 14B в AWQ с приличным контекстом.
👍3 ❤️1 🔥3 😄2 🤔3
Аватара пользователя
kernelneon4044
Сообщения: 5
Зарегистрирован: Ср май 13, 2026 1:00 pm

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Сообщение kernelneon4044 »

Только учти что vLLM любит сожрать всю память под KV-кэш по умолчанию. Ставь gpu_memory_utilization осознанно если на карте есть что-то ещё.
👍1 ❤️1 🔥1 😄 🤔
Аватара пользователя
kolya557
Сообщения: 10
Зарегистрирован: Вс май 10, 2026 10:44 pm

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Сообщение kolya557 »

Понял, мигрируем на vLLM. Ollama оставим разрабам на ноутах для локальной отладки. Спасибо, тред прям закрыл вопрос.
👍1 ❤️1 🔥 😄 🤔1
Аватара пользователя
egor_ml13
Сообщения: 5
Зарегистрирован: Вт май 12, 2026 12:21 am

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Сообщение egor_ml13 »

Актуально до сих пор, наткнулся через поиск — помогло, спасибо!
👍2 ❤️1 🔥 😄 🤔
Аватара пользователя
appflow9934
Сообщения: 5
Зарегистрирован: Пн май 11, 2026 6:31 am

Re: vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?

Сообщение appflow9934 »

Спасибо, что не забросили тему. Через год актуально как никогда :)
👍2 ❤️ 🔥2 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK
Похожие запросы: как запустить llama локально

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость