vLLM vs llama.cpp что выбрать для продакшн инференса

Рейтинг: 43.3% · 20 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
omegaai1991
Сообщения: 21
Зарегистрирован: Вт май 12, 2026 9:35 pm

vLLM vs llama.cpp что выбрать для продакшн инференса

Сообщение omegaai1991 »

Стоит задача: деплоить Qwen2.5-72B для внутреннего использования в компании, примерно 50-100 одновременных запросов. Есть сервер с 4x A100 80GB. Смотрю в сторону vLLM и llama.cpp с сервером. Кто реально деплоил что-то подобное — что посоветуете? Важны: throughput, latency на первый токен, стабильность под нагрузкой.
👍2 ❤️1 🔥1 😄3 🤔2
✔ Лучший ответ выбран автором и совпадает с автоматическим подбором — egor9725
Из практики: vLLM на Qwen2.5-72B с --tensor-parallel-size 4 и bfloat16 на 4xA100 даёт около 1200-1500 токенов/сек суммарного throughput при batching. TTFT (time to first token) при нагрузке держится в районе 300-500мс. Для запуска: python -m vllm.entrypoints.openai.api_server --model Qwen/Qwen2.5-72B-Instruct --tensor-parallel-size 4 --max-model-len 32768. Главный момент — выставь --gpu-memory-ut…
Перейти к ответу →
Аватара пользователя
ivan1999
Сообщения: 7
Зарегистрирован: Пт май 15, 2026 5:53 am

Re: vLLM vs llama.cpp что выбрать для продакшн инференса

Сообщение ivan1999 »

На таком железе однозначно vLLM. llama.cpp хорош для локалки или когда надо на одной карточке выжать максимум через GGUF-квантизацию, но для 4xA100 с нагрузкой в 100 concurrent users — это не его история. vLLM с PagedAttention и continuous batching даст на порядок лучший throughput.
👍2 ❤️ 🔥2 😄 🤔1
Аватара пользователя
rodion_root
Сообщения: 29
Зарегистрирован: Вс май 10, 2026 11:08 pm

Re: vLLM vs llama.cpp что выбрать для продакшн инференса

Сообщение rodion_root »

Согласен с предыдущим, но добавлю нюанс: llama.cpp в последних версиях тоже умеет tensor parallelism и неплохо работает с несколькими GPU. Но его OpenAI-compatible сервер всё равно уступает vLLM по batching-логике. Для 72B модели на 4xA100 я бы смотрел ещё на SGLang — в бенчмарках он часто обгоняет vLLM на longer context.
👍1 ❤️ 🔥 😄 🤔2
Аватара пользователя
egor9725
Сообщения: 27
Зарегистрирован: Вс май 10, 2026 9:17 pm

Re: vLLM vs llama.cpp что выбрать для продакшн инференса

Сообщение egor9725 »

✔ Лучший ответ — выбран автором и совпадает с авто-подбором
Из практики: vLLM на Qwen2.5-72B с --tensor-parallel-size 4 и bfloat16 на 4xA100 даёт около 1200-1500 токенов/сек суммарного throughput при batching. TTFT (time to first token) при нагрузке держится в районе 300-500мс. Для запуска: python -m vllm.entrypoints.openai.api_server --model Qwen/Qwen2.5-72B-Instruct --tensor-parallel-size 4 --max-model-len 32768. Главный момент — выставь --gpu-memory-utilization 0.90, иначе vLLM по умолчанию резервирует 90% сам, но иногда нужно подкрутить под конкретную модель.
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
savva_io
Сообщения: 41
Зарегистрирован: Вс май 10, 2026 9:03 pm

Re: vLLM vs llama.cpp что выбрать для продакшн инференса

Сообщение savva_io »

Один важный практический момент который все упускают: vLLM иногда падает с OOM если не ограничить max_num_seqs и max_num_batched_tokens под свою нагрузку. Обязательно нагрузи сервер перед продом — locust или простой bash-скрипт с параллельными curl, смотри на утилизацию VRAM в nvidia-smi -l 1. Также логи vLLM в prod лучше гнать в что-то вроде Prometheus + Grafana, там есть встроенные метрики через /metrics эндпоинт.
👍1 ❤️ 🔥1 😄 🤔
Аватара пользователя
goroot6728
Сообщения: 2
Зарегистрирован: Чт май 14, 2026 7:24 pm

Re: vLLM vs llama.cpp что выбрать для продакшн инференса

Сообщение goroot6728 »

Используем vLLM в проде уже 8 месяцев, всё норм. Единственная боль — обновления иногда ломают совместимость конфигов, держите версию зафиксированной в docker-compose и не обновляйтесь без тестирования.
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость