vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

barbs · Сообщение **barbs** » 30 май 2026, 20:39

Замерил vLLM и llama.cpp на одной A100 80гб с Qwen2.5-32B и хочу поделиться числами, потому что вечно спорят а конкретики ноль. Сценарий: один пользователь, чат, FP8. llama.cpp server дает 38 t/s генерации. vLLM на той же модели и кванте 41 t/s на одиночном запросе. Разница копеечная. НО как только включаю параллельные запросы, vLLM раскатывает: при 16 одновременных он держит суммарно 600+ t/s за счет continuous batching, а llama.cpp деградирует в кашу. Вывод простой, для одного юзера бери что проще, для сервиса только vLLM. Может у кого опыт другой.

postgres2 · Сообщение **postgres2** » 30 май 2026, 21:16

@barbs, все верно намерил. llama.cpp вообще не про throughput, он про запусти что угодно где угодно. для прода под нагрузку vllm или sglang без вариантов

rbacker · Сообщение **rbacker** » 30 май 2026, 22:14

sglang кстати последние полгода по бенчам обгоняет vllm на radix cache когда много общих префиксов (системный промпт один на всех). если у тебя агенты с одинаковым большим системником, попробуй, прирост бывает 20-30%

infern · Сообщение **infern** » 31 май 2026, 03:08

barbs писал(а):для одного юзера бери что проще

для одного юзера я бы все равно взял llama.cpp а не vllm, потому что vllm сжирает память под KV-кэш агрессивно и заводится минуту, а llama.cpp стартует за секунды и квантов больше. для дома vllm избыточен капитально

tayheba · Сообщение **tayheba** » 31 май 2026, 07:25

serious? a100 дома)) у автора видимо дома стойка стоит

lfmatt · Сообщение **lfmatt** » 31 май 2026, 08:36

@предыдущий аренда A100 в России сейчас 90-130 руб/час у местных провайдеров, никто ее не покупает за 2 млн чтобы дома держать. это облако очевидно же

jpearce · Сообщение **jpearce** » 31 май 2026, 13:23

добавлю по vllm раз пошла такая пьянка. версия 0.6+ там сильно переписали шедулер, throughput подрос процентов на 40 относительно 0.5 на тех же картах. если кто мерил на старой, перемеряйте. и chunked prefill включайте, без него длинные промпты блокируют батч и латенси скачет. еще момент: vllm любит когда выставлен gpu-memory-utilization под 0.9, на дефолте недоиспользует карту. tensor-parallel на двух картах дает почти линейный скейл для throughput но латенси одиночного запроса наоборот растет из-за синхронизации, так что если у тебя 2+ карты решай что важнее.

tiger71 · Сообщение **tiger71** » 31 май 2026, 13:58

holywar детект. на самом деле llama.cpp на свежем CUDA-билде догнал vllm по одиночке почти везде, отставание было года полтора назад. сейчас спор только про batching, в остальном паритет

vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

Re: vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

Re: vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

Re: vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

Re: vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

Re: vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

Re: vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

Re: vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри

Кто сейчас на конференции