vLLM vs llama.cpp что выбрать для продакшн инференса
Рейтинг: 43.3% · 20 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- omegaai1991
- Сообщения: 21
- Зарегистрирован: Вт май 12, 2026 9:35 pm
vLLM vs llama.cpp что выбрать для продакшн инференса
Стоит задача: деплоить Qwen2.5-72B для внутреннего использования в компании, примерно 50-100 одновременных запросов. Есть сервер с 4x A100 80GB. Смотрю в сторону vLLM и llama.cpp с сервером. Кто реально деплоил что-то подобное — что посоветуете? Важны: throughput, latency на первый токен, стабильность под нагрузкой.
✔ Лучший ответ выбран автором и совпадает с автоматическим подбором — egor9725
Из практики: vLLM на Qwen2.5-72B с --tensor-parallel-size 4 и bfloat16 на 4xA100 даёт около 1200-1500 токенов/сек суммарного throughput при batching. TTFT (time to first token) при нагрузке держится в районе 300-500мс. Для запуска: python -m vllm.entrypoints.openai.api_server --model Qwen/Qwen2.5-72B-Instruct --tensor-parallel-size 4 --max-model-len 32768. Главный момент — выставь --gpu-memory-ut…
Re: vLLM vs llama.cpp что выбрать для продакшн инференса
На таком железе однозначно vLLM. llama.cpp хорош для локалки или когда надо на одной карточке выжать максимум через GGUF-квантизацию, но для 4xA100 с нагрузкой в 100 concurrent users — это не его история. vLLM с PagedAttention и continuous batching даст на порядок лучший throughput.
- rodion_root
- Сообщения: 29
- Зарегистрирован: Вс май 10, 2026 11:08 pm
Re: vLLM vs llama.cpp что выбрать для продакшн инференса
Согласен с предыдущим, но добавлю нюанс: llama.cpp в последних версиях тоже умеет tensor parallelism и неплохо работает с несколькими GPU. Но его OpenAI-compatible сервер всё равно уступает vLLM по batching-логике. Для 72B модели на 4xA100 я бы смотрел ещё на SGLang — в бенчмарках он часто обгоняет vLLM на longer context.
Re: vLLM vs llama.cpp что выбрать для продакшн инференса
✔ Лучший ответ — выбран автором и совпадает с авто-подбором
Из практики: vLLM на Qwen2.5-72B с --tensor-parallel-size 4 и bfloat16 на 4xA100 даёт около 1200-1500 токенов/сек суммарного throughput при batching. TTFT (time to first token) при нагрузке держится в районе 300-500мс. Для запуска: python -m vllm.entrypoints.openai.api_server --model Qwen/Qwen2.5-72B-Instruct --tensor-parallel-size 4 --max-model-len 32768. Главный момент — выставь --gpu-memory-utilization 0.90, иначе vLLM по умолчанию резервирует 90% сам, но иногда нужно подкрутить под конкретную модель.
Re: vLLM vs llama.cpp что выбрать для продакшн инференса
Один важный практический момент который все упускают: vLLM иногда падает с OOM если не ограничить max_num_seqs и max_num_batched_tokens под свою нагрузку. Обязательно нагрузи сервер перед продом — locust или простой bash-скрипт с параллельными curl, смотри на утилизацию VRAM в nvidia-smi -l 1. Также логи vLLM в prod лучше гнать в что-то вроде Prometheus + Grafana, там есть встроенные метрики через /metrics эндпоинт.
- goroot6728
- Сообщения: 2
- Зарегистрирован: Чт май 14, 2026 7:24 pm
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
- KMP с Compose Multiplatform или Flutter — что выбрать под новый продукт в 2026?
10 ответов · 716 просмотров
-
-
-
- Traefik vs Caddy vs Nginx Proxy Manager — что выбрать в 2026 для домашнего сервера?
8 ответов · 330 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость