Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

torch22 · Сообщение **torch22** » 23 май 2026, 18:34

История провала для тех кто думает что vLLM это серебряная пуля для двух карт. Поставил себе цель завести 70B на 2x3090 с настоящим тензор параллелизмом чтобы получить скорость выше чем llama.cpp с её послойной разбивкой. Потратил все выходные, в итоге откатился обратно. vLLM требует gptq/awq кванты, gguf он толком не ест, нормальный awq quant нужной модели ещё найти надо, версии cuda и torch конфликтуют, на потребительских картах половина оптимизаций отключена. Завёл в итоге, получил 22 ток/сек против 17 на llama.cpp. Два дня ради +5 токенов. Делюсь чтобы вы не наступали.

Kutz · Сообщение **Kutz** » 23 май 2026, 20:56

ну так vLLM это серверное решение под батчинг многих запросов, его сила не в одиночном чате а когда к тебе ломится 50 параллельных юзеров. Для домашнего одиночного инференса llama.cpp правильный выбор, ты просто инструмент не под ту задачу выбрал

torch22 · Сообщение **torch22** » 23 май 2026, 21:58

@Kutz, +5 токенов это ещё ты удачно отделался, у меня вообще не завелось из за awq кванта который кто-то криво собрал, модель грузилась и выдавала кашу

sierra1 · Сообщение **sierra1** » 23 май 2026, 23:28

torch22 писал(а):vLLM требует gptq/awq кванты, gguf он толком не ест

формально gguf поддержку в vLLM завезли давно, но она там сырая и медленная, по факту ты прав что нормально работают только awq/gptq. И вот тут засада для СНГ: готовых awq квантов под свежие модели часто нет, а собирать самому это отдельный геморрой с калибровочным датасетом и кучей vram под сам процесс квантизации. На gguf же кванты выходят в день релиза модели. Это реальный довод за llama.cpp если ты не хочешь ждать.

lena77 · Сообщение **lena77** » 23 май 2026, 23:36

@torch22, серьёзно два дня? за пару часов всё ставится в докере

larrivee2002

@lena77, @speedrun в докере если образ под твою cuda есть и кванты готовые лежат да. А если карты потребительские, кванта нет, и ты собираешь окружение руками потому что готовый образ падает, вот тебе и два дня. Не у всех всё гладко ложится, удивительно правда

lena87 · Сообщение **lena87** » 24 май 2026, 07:11

@torch22, Раз тема про честное сравнение, добавлю конкретики чтобы новичкам было понятно когда что брать. Тензор параллелизм в vLLM реально работает и реально быстрее послойной разбивки llama.cpp, но выигрыш на батче 1 (один пользователь, один запрос) скромный, те самые +20-30 процентов что человек и получил. Настоящая магия vLLM включается на батчинге: если ты обслуживаешь несколько запросов одновременно, llama.cpp деградирует, а vLLM держит суммарную пропускную способность в разы выше за счёт continuous batching и paged attention. Поэтому правило простое: один человек дома, интерактивный чат или агент в один поток, бери llama.cpp или ollama, не мучайся. Делаешь сервис на отдел или публичный апи с десятками одновременных юзеров, тогда vLLM окупит весь геморрой с awq и cuda. Промежуточный вариант если очень хочется TP но не хочется vLLM боли, посмотри в сторону exllama v2/v3, там тензор параллелизм и нормальные кванты, на 2x3090 многие именно его держат как компромисс между скоростью vLLM и удобством llama.cpp.

andrei11 · Сообщение **andrei11** » 24 май 2026, 08:44

lena87 писал(а):посмотри в сторону exllama

вот это дельный совет, на 2x3090 exllama даёт честный TP и свои exl2 кванты выходят довольно быстро после релиза моделей. У меня на нём 70B идёт ощутимо бодрее чем на llama.cpp послойно, при этом боли с cuda меньше чем у vLLM. ОП зря сразу в vLLM полез, надо было сюда смотреть

Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

Кто сейчас на конференции