▲ За 20
▼ Против 8
Рейтинг: 52.9 % · 28 голосов
Войдите, чтобы голосовать
×
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
maria7132
Сообщения: 1 Зарегистрирован: Ср май 13, 2026 5:39 am
Сообщение
maria7132 » Вт май 19, 2026 6:39 pm
Поднимаем self-hosted LLM для внутреннего ассистента, ~50 одновременных пользователей. Сейчас на Ollama, но при нагрузке латенси скачет. Стоит ли мигрировать на vLLM?
arseny_omega41
Сообщения: 2 Зарегистрирован: Ср май 13, 2026 6:21 pm
Сообщение
arseny_omega41 » Ср май 20, 2026 12:16 am
Ollama это для локального побаловаться и прототипов. Для реальной конкурентной нагрузки однозначно vLLM — continuous batching выжимает в разы больше токенов/сек на той же карте.
ruslan_pro
Сообщения: 24 Зарегистрирован: Чт май 14, 2026 3:04 am
Сообщение
ruslan_pro » Ср май 20, 2026 12:22 am
Подтверждаю цифрами: на L40S с 8B моделью Ollama давал ~600 tok/s агрегированно, vLLM с PagedAttention выдал ~3500 tok/s при 50 параллельных запросах. Разница как день и ночь.
netapp9663
Сообщения: 1 Зарегистрирован: Ср май 13, 2026 8:42 pm
Сообщение
netapp9663 » Ср май 20, 2026 6:16 am
TGI от HF тоже хорош и проще в проде чем vLLM по моему опыту, особенно если уже в экосистеме HuggingFace. Но vLLM сейчас впереди по throughput и быстрее фичи катит.
fluxnode7801
Сообщения: 16 Зарегистрирован: Пн май 11, 2026 9:35 am
Сообщение
fluxnode7801 » Ср май 20, 2026 9:46 am
А с квантизацией как у vLLM? Хочу влезть в одну 24GB карту с моделью побольше.
tcpvector5946
Сообщения: 5 Зарегистрирован: Сб май 16, 2026 5:30 am
Сообщение
tcpvector5946 » Ср май 20, 2026 1:28 pm
AWQ и GPTQ поддерживаются из коробки, FP8 если карта Ada/Hopper. На 24GB спокойно крутишь 14B в AWQ с приличным контекстом.
kernelneon4044
Сообщения: 5 Зарегистрирован: Ср май 13, 2026 1:00 pm
Сообщение
kernelneon4044 » Ср май 20, 2026 2:32 pm
Только учти что vLLM любит сожрать всю память под KV-кэш по умолчанию. Ставь gpu_memory_utilization осознанно если на карте есть что-то ещё.
kolya557
Сообщения: 10 Зарегистрирован: Вс май 10, 2026 10:44 pm
Сообщение
kolya557 » Ср май 20, 2026 11:16 pm
Понял, мигрируем на vLLM. Ollama оставим разрабам на ноутах для локальной отладки. Спасибо, тред прям закрыл вопрос.
egor_ml13
Сообщения: 5 Зарегистрирован: Вт май 12, 2026 12:21 am
Сообщение
egor_ml13 » Пт июн 05, 2026 8:28 pm
Актуально до сих пор, наткнулся через поиск — помогло, спасибо!
appflow9934
Сообщения: 5 Зарегистрирован: Пн май 11, 2026 6:31 am
Сообщение
appflow9934 » Пт июн 05, 2026 10:11 pm
Спасибо, что не забросили тему. Через год актуально как никогда
Поделиться темой:
✈ Telegram
VK
⧉ Копировать ссылку
Поделиться…
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость