vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

Рейтинг: 43.9% · 3 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
barbs
Сообщения: 50
Зарегистрирован: 19 май 2026, 04:16

vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

Сообщение barbs »

Замерил vLLM и llama.cpp на одной A100 80гб с Qwen2.5-32B и хочу поделиться числами, потому что вечно спорят а конкретики ноль. Сценарий: один пользователь, чат, FP8. llama.cpp server дает 38 t/s генерации. vLLM на той же модели и кванте 41 t/s на одиночном запросе. Разница копеечная. НО как только включаю параллельные запросы, vLLM раскатывает: при 16 одновременных он держит суммарно 600+ t/s за счет continuous batching, а llama.cpp деградирует в кашу. Вывод простой, для одного юзера бери что проще, для сервиса только vLLM. Может у кого опыт другой.
👍1 ❤️1 🔥1 😄 🤔
✔ Лучший ответ сформирован автоматически — jpearce
добавлю по vllm раз пошла такая пьянка. версия 0.6+ там сильно переписали шедулер, throughput подрос процентов на 40 относительно 0.5 на тех же картах. если кто мерил на старой, перемеряйте. и chunked prefill включайте, без него длинные промпты блокируют батч и латенси скачет. еще момент: vllm любит когда выставлен gpu-memory-utilization под 0.9, на дефолте недоиспользует карту. tensor-parallel н…
Перейти к ответу →
Аватара пользователя
postgres2
Сообщения: 66
Зарегистрирован: 11 май 2026, 17:56

Re: vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

Сообщение postgres2 »

@barbs, все верно намерил. llama.cpp вообще не про throughput, он про запусти что угодно где угодно. для прода под нагрузку vllm или sglang без вариантов
👍1 ❤️1 🔥1 😄 🤔
Аватара пользователя
rbacker
Сообщения: 28
Зарегистрирован: 11 май 2026, 19:56

Re: vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

Сообщение rbacker »

sglang кстати последние полгода по бенчам обгоняет vllm на radix cache когда много общих префиксов (системный промпт один на всех). если у тебя агенты с одинаковым большим системником, попробуй, прирост бывает 20-30%
👍1 ❤️1 🔥2 😄 🤔
Аватара пользователя
infern
Сообщения: 87
Зарегистрирован: 11 май 2026, 10:23

Re: vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

Сообщение infern »

barbs писал(а):для одного юзера бери что проще
для одного юзера я бы все равно взял llama.cpp а не vllm, потому что vllm сжирает память под KV-кэш агрессивно и заводится минуту, а llama.cpp стартует за секунды и квантов больше. для дома vllm избыточен капитально
👍1 ❤️1 🔥 😄 🤔1
Аватара пользователя
tayheba
Сообщения: 11
Зарегистрирован: 16 май 2026, 22:23

Re: vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

Сообщение tayheba »

serious? a100 дома)) у автора видимо дома стойка стоит
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
lfmatt
Сообщения: 19
Зарегистрирован: 14 май 2026, 05:42

Re: vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

Сообщение lfmatt »

@предыдущий аренда A100 в России сейчас 90-130 руб/час у местных провайдеров, никто ее не покупает за 2 млн чтобы дома держать. это облако очевидно же
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
jpearce
Сообщения: 47
Зарегистрирован: 11 май 2026, 23:34

Re: vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

Сообщение jpearce »

✔ Лучший ответ — сформирован автоматически
добавлю по vllm раз пошла такая пьянка. версия 0.6+ там сильно переписали шедулер, throughput подрос процентов на 40 относительно 0.5 на тех же картах. если кто мерил на старой, перемеряйте. и chunked prefill включайте, без него длинные промпты блокируют батч и латенси скачет. еще момент: vllm любит когда выставлен gpu-memory-utilization под 0.9, на дефолте недоиспользует карту. tensor-parallel на двух картах дает почти линейный скейл для throughput но латенси одиночного запроса наоборот растет из-за синхронизации, так что если у тебя 2+ карты решай что важнее.
👍1 ❤️ 🔥1 😄 🤔1
Аватара пользователя
tiger71
Сообщения: 44
Зарегистрирован: 10 май 2026, 23:32

Re: vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

Сообщение tiger71 »

holywar детект. на самом деле llama.cpp на свежем CUDA-билде догнал vllm по одиночке почти везде, отставание было года полтора назад. сейчас спор только про batching, в остальном паритет
👍 ❤️2 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость