vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри
Рейтинг: 43.9% · 3 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри
Замерил vLLM и llama.cpp на одной A100 80гб с Qwen2.5-32B и хочу поделиться числами, потому что вечно спорят а конкретики ноль. Сценарий: один пользователь, чат, FP8. llama.cpp server дает 38 t/s генерации. vLLM на той же модели и кванте 41 t/s на одиночном запросе. Разница копеечная. НО как только включаю параллельные запросы, vLLM раскатывает: при 16 одновременных он держит суммарно 600+ t/s за счет continuous batching, а llama.cpp деградирует в кашу. Вывод простой, для одного юзера бери что проще, для сервиса только vLLM. Может у кого опыт другой.
✔ Лучший ответ сформирован автоматически — jpearce
добавлю по vllm раз пошла такая пьянка. версия 0.6+ там сильно переписали шедулер, throughput подрос процентов на 40 относительно 0.5 на тех же картах. если кто мерил на старой, перемеряйте. и chunked prefill включайте, без него длинные промпты блокируют батч и латенси скачет. еще момент: vllm любит когда выставлен gpu-memory-utilization под 0.9, на дефолте недоиспользует карту. tensor-parallel н…
Re: vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри
sglang кстати последние полгода по бенчам обгоняет vllm на radix cache когда много общих префиксов (системный промпт один на всех). если у тебя агенты с одинаковым большим системником, попробуй, прирост бывает 20-30%
Re: vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри
для одного юзера я бы все равно взял llama.cpp а не vllm, потому что vllm сжирает память под KV-кэш агрессивно и заводится минуту, а llama.cpp стартует за секунды и квантов больше. для дома vllm избыточен капитальноbarbs писал(а):для одного юзера бери что проще
Re: vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри
✔ Лучший ответ — сформирован автоматически
добавлю по vllm раз пошла такая пьянка. версия 0.6+ там сильно переписали шедулер, throughput подрос процентов на 40 относительно 0.5 на тех же картах. если кто мерил на старой, перемеряйте. и chunked prefill включайте, без него длинные промпты блокируют батч и латенси скачет. еще момент: vllm любит когда выставлен gpu-memory-utilization под 0.9, на дефолте недоиспользует карту. tensor-parallel на двух картах дает почти линейный скейл для throughput но латенси одиночного запроса наоборот растет из-за синхронизации, так что если у тебя 2+ карты решай что важнее.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
-
- Запрос с JOIN тормозит на 5 секунд, EXPLAIN внутри — помогите разобраться
10 ответов · 645 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость