vLLM

Когда у self-hosted инференса появляются реальные пользователи и параллельные запросы, Ollama перестаёт хватать — и начинается разговор про continuous batching и PagedAttention. Здесь разбирают выбор квантизации AWQ или GPTQ, тюнинг KV-cache, борьбу с OOM при всплесках трафика и честный вопрос, нужен ли такой комбайн дома на одной видеокарте. Опыт в основном продовый: цифры throughput, грабли конфигов, сравнения с TGI и llama.cpp.

8 тем, 72 ответов, 3096 просмотров · все теги

Темы

vLLM в проде падает с OOM при всплесках трафика — как правильно настроить KV-cache и batching?
в «Машинное обучение и Data Science» · 8 ответов · 84 просмотров · 10 июн 2026, 13:55
Ollama vs llama.cpp vs vLLM - что выбрать в 2026, запутался окончательно
в «Локальные LLM и open-source модели» · 10 ответов · 827 просмотров · 09 июн 2026, 03:47
vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?
в «Локальные LLM и open-source модели» · 6 ответов · 62 просмотров · 08 июн 2026, 17:09
vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас?
в «Машинное обучение и Data Science» · 9 ответов · 875 просмотров · 05 июн 2026, 23:28
vLLM vs llama.cpp что выбрать для продакшн инференса ✓ Решено
в «Локальные LLM и open-source модели» · 9 ответов · 75 просмотров · 04 июн 2026, 19:28
AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF
в «Локальные LLM и open-source модели» · 8 ответов · 479 просмотров · 04 июн 2026, 19:11
Перестаньте советовать vLLM всем подряд, это не замена llama.cpp
в «Локальные LLM и open-source модели» · 14 ответов · 649 просмотров · 04 июн 2026, 10:13
Ollama в проде, нормальная практика или зашквар
в «Локальные LLM и open-source модели» · 8 ответов · 45 просмотров · 24 май 2026, 18:27

Популярные запросы по теме: как запустить llama локально что такое ubuntu server и зачем он нужен · все запросы →