vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?

artem_node41 · Вс июн 07, 2026 11:09 am

Хочу поднять локальный API-сервер для нескольких пользователей (семья + пара коллег, 3-5 одновременных запросов). Сейчас использую Ollama, но слышал что vLLM лучше по throughput под нагрузкой. Железо: RTX 3090 24GB + Ryzen 9 7900X, 64GB RAM. Модель Qwen3 14B. Стоит ли заморачиваться с vLLM или Ollama хватит?

dockerssh2428 · Вс июн 07, 2026 6:44 pm

Для 3-5 одновременных пользователей vLLM действительно лучше — у него continuous batching из коробки, то есть он обрабатывает запросы батчами без ожидания завершения предыдущего. Ollama по умолчанию очередь, один запрос за раз. Но есть нюанс: vLLM не поддерживает GGUF нативно (только через костыли), а значит модели нужны в HuggingFace формате (BF16 или GPTQ/AWQ).

Для Qwen3 14B в BF16 нужно ~28GB VRAM — у тебя 24GB, не влезет. GPTQ-4bit версия ~8GB — влезет, но нужно искать готовые GPTQ чекпоинты. Лучше посмотри на TabbyAPI — это тот же движок что ExllamaV2, поддерживает EXL2 квантизацию, continuous batching, и работает с потреблением памяти как GGUF.

oleg5897 · Пн июн 08, 2026 12:18 am

Честно: для домашнего сервера разница между Ollama и vLLM при 3-5 пользователях минимальная. Пользователи не делают 50 запросов в секунду, между сообщениями есть паузы. Ollama справится. vLLM начинает выигрывать от 10+ одновременных потоков.

ruslan_ml61 · Пн июн 08, 2026 5:51 am

@lena_codes, Попробуй LiteLLM как прокси перед Ollama — он добавляет load balancing, rate limiting, логирование. Можно даже несколько моделей за одним эндпоинтом держать. Для домашнего сервера это даст 80% преимуществ vLLM без его сложности.

zhenya_ai46 · Пн июн 08, 2026 1:39 pm

Я в итоге поднял llama.cpp с флагом --parallel 4 — это позволяет обрабатывать 4 запроса одновременно с разделением батча. На 3090 с Qwen3 14B Q4_K_M получаю около 20 tok/s на пользователя при 4 параллельных. Для семейного использования хватает.

tanya_ml · Пн июн 08, 2026 1:55 pm

@jun_dev_2026, Важное про vLLM и GGUF — официально GGUF поддерживается, но с оговорками. В документации прямо написано что overhead значительный и для GGUF лучше использовать llama.cpp. vLLM заточен под нативный HuggingFace формат с CUDA-оптимизациями. Не гонитесь за vLLM ради GGUF-моделей — не та история.

anna2444 · Пн июн 08, 2026 2:09 pm

Для СНГ-рынка ещё актуально: RTX 3090 в 2026 году стоит дешевле чем раньше (рынок б/у), а 24GB VRAM позволяет гонять 14B в полном качестве. Вполне адекватный выбор для домашнего сервера. Если думаете о новой карте — 4080 Super 16GB дешевле 4090 но для >14B моделей уже тесновато.

Cyberlake

vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?

vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?

Re: vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?

Re: vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?

Re: vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?

Re: vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?

Re: vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?

Re: vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?

Кто сейчас на конференции