vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?

Рейтинг: 34.2% · 2 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
artem_node41
Сообщения: 16
Зарегистрирован: Пн май 11, 2026 11:48 pm

vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?

Сообщение artem_node41 »

Хочу поднять локальный API-сервер для нескольких пользователей (семья + пара коллег, 3-5 одновременных запросов). Сейчас использую Ollama, но слышал что vLLM лучше по throughput под нагрузкой. Железо: RTX 3090 24GB + Ryzen 9 7900X, 64GB RAM. Модель Qwen3 14B. Стоит ли заморачиваться с vLLM или Ollama хватит?
👍2 ❤️1 🔥1 😄 🤔1
✔ Лучший ответ сформирован автоматически — dockerssh2428
Для 3-5 одновременных пользователей vLLM действительно лучше — у него continuous batching из коробки, то есть он обрабатывает запросы батчами без ожидания завершения предыдущего. Ollama по умолчанию очередь, один запрос за раз. Но есть нюанс: vLLM не поддерживает GGUF нативно (только через костыли), а значит модели нужны в HuggingFace формате (BF16 или GPTQ/AWQ). Для Qwen3 14B в BF16 нужно ~28GB …
Перейти к ответу →
Аватара пользователя
dockerssh2428
Сообщения: 20
Зарегистрирован: Вт май 12, 2026 9:04 am

Re: vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?

Сообщение dockerssh2428 »

✔ Лучший ответ — сформирован автоматически
Для 3-5 одновременных пользователей vLLM действительно лучше — у него continuous batching из коробки, то есть он обрабатывает запросы батчами без ожидания завершения предыдущего. Ollama по умолчанию очередь, один запрос за раз. Но есть нюанс: vLLM не поддерживает GGUF нативно (только через костыли), а значит модели нужны в HuggingFace формате (BF16 или GPTQ/AWQ).

Для Qwen3 14B в BF16 нужно ~28GB VRAM — у тебя 24GB, не влезет. GPTQ-4bit версия ~8GB — влезет, но нужно искать готовые GPTQ чекпоинты. Лучше посмотри на TabbyAPI — это тот же движок что ExllamaV2, поддерживает EXL2 квантизацию, continuous batching, и работает с потреблением памяти как GGUF.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
oleg5897
Сообщения: 24
Зарегистрирован: Пн май 11, 2026 1:28 am

Re: vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?

Сообщение oleg5897 »

Честно: для домашнего сервера разница между Ollama и vLLM при 3-5 пользователях минимальная. Пользователи не делают 50 запросов в секунду, между сообщениями есть паузы. Ollama справится. vLLM начинает выигрывать от 10+ одновременных потоков.
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
ruslan_ml61
Сообщения: 33
Зарегистрирован: Вс май 10, 2026 8:57 pm

Re: vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?

Сообщение ruslan_ml61 »

@lena_codes, Попробуй LiteLLM как прокси перед Ollama — он добавляет load balancing, rate limiting, логирование. Можно даже несколько моделей за одним эндпоинтом держать. Для домашнего сервера это даст 80% преимуществ vLLM без его сложности.
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
zhenya_ai46
Сообщения: 4
Зарегистрирован: Пт май 15, 2026 5:40 am

Re: vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?

Сообщение zhenya_ai46 »

Я в итоге поднял llama.cpp с флагом --parallel 4 — это позволяет обрабатывать 4 запроса одновременно с разделением батча. На 3090 с Qwen3 14B Q4_K_M получаю около 20 tok/s на пользователя при 4 параллельных. Для семейного использования хватает.
👍 ❤️2 🔥 😄 🤔
Аватара пользователя
tanya_ml
Сообщения: 14
Зарегистрирован: Вт май 12, 2026 1:52 am

Re: vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?

Сообщение tanya_ml »

@jun_dev_2026, Важное про vLLM и GGUF — официально GGUF поддерживается, но с оговорками. В документации прямо написано что overhead значительный и для GGUF лучше использовать llama.cpp. vLLM заточен под нативный HuggingFace формат с CUDA-оптимизациями. Не гонитесь за vLLM ради GGUF-моделей — не та история.
👍2 ❤️ 🔥 😄 🤔
Аватара пользователя
anna2444
Сообщения: 7
Зарегистрирован: Ср май 13, 2026 4:23 am

Re: vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?

Сообщение anna2444 »

Для СНГ-рынка ещё актуально: RTX 3090 в 2026 году стоит дешевле чем раньше (рынок б/у), а 24GB VRAM позволяет гонять 14B в полном качестве. Вполне адекватный выбор для домашнего сервера. Если думаете о новой карте — 4080 Super 16GB дешевле 4090 но для >14B моделей уже тесновато.
👍 ❤️ 🔥2 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей