Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp
Рейтинг: 48.7% · 7 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp
История провала для тех кто думает что vLLM это серебряная пуля для двух карт. Поставил себе цель завести 70B на 2x3090 с настоящим тензор параллелизмом чтобы получить скорость выше чем llama.cpp с её послойной разбивкой. Потратил все выходные, в итоге откатился обратно. vLLM требует gptq/awq кванты, gguf он толком не ест, нормальный awq quant нужной модели ещё найти надо, версии cuda и torch конфликтуют, на потребительских картах половина оптимизаций отключена. Завёл в итоге, получил 22 ток/сек против 17 на llama.cpp. Два дня ради +5 токенов. Делюсь чтобы вы не наступали.
✔ Лучший ответ сформирован автоматически — lena87
@torch22, Раз тема про честное сравнение, добавлю конкретики чтобы новичкам было понятно когда что брать. Тензор параллелизм в vLLM реально работает и реально быстрее послойной разбивки llama.cpp, но выигрыш на батче 1 (один пользователь, один запрос) скромный, те самые +20-30 процентов что человек и получил. Настоящая магия vLLM включается на батчинге: если ты обслуживаешь несколько запросов одн…
Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp
ну так vLLM это серверное решение под батчинг многих запросов, его сила не в одиночном чате а когда к тебе ломится 50 параллельных юзеров. Для домашнего одиночного инференса llama.cpp правильный выбор, ты просто инструмент не под ту задачу выбрал
Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp
формально gguf поддержку в vLLM завезли давно, но она там сырая и медленная, по факту ты прав что нормально работают только awq/gptq. И вот тут засада для СНГ: готовых awq квантов под свежие модели часто нет, а собирать самому это отдельный геморрой с калибровочным датасетом и кучей vram под сам процесс квантизации. На gguf же кванты выходят в день релиза модели. Это реальный довод за llama.cpp если ты не хочешь ждать.torch22 писал(а):vLLM требует gptq/awq кванты, gguf он толком не ест
- larrivee2002
- Сообщения: 9
- Зарегистрирован: 12 май 2026, 03:00
Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp
@lena77, @speedrun в докере если образ под твою cuda есть и кванты готовые лежат да. А если карты потребительские, кванта нет, и ты собираешь окружение руками потому что готовый образ падает, вот тебе и два дня. Не у всех всё гладко ложится, удивительно правда
Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp
✔ Лучший ответ — сформирован автоматически
@torch22, Раз тема про честное сравнение, добавлю конкретики чтобы новичкам было понятно когда что брать. Тензор параллелизм в vLLM реально работает и реально быстрее послойной разбивки llama.cpp, но выигрыш на батче 1 (один пользователь, один запрос) скромный, те самые +20-30 процентов что человек и получил. Настоящая магия vLLM включается на батчинге: если ты обслуживаешь несколько запросов одновременно, llama.cpp деградирует, а vLLM держит суммарную пропускную способность в разы выше за счёт continuous batching и paged attention. Поэтому правило простое: один человек дома, интерактивный чат или агент в один поток, бери llama.cpp или ollama, не мучайся. Делаешь сервис на отдел или публичный апи с десятками одновременных юзеров, тогда vLLM окупит весь геморрой с awq и cuda. Промежуточный вариант если очень хочется TP но не хочется vLLM боли, посмотри в сторону exllama v2/v3, там тензор параллелизм и нормальные кванты, на 2x3090 многие именно его держат как компромисс между скоростью vLLM и удобством llama.cpp.
Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp
вот это дельный совет, на 2x3090 exllama даёт честный TP и свои exl2 кванты выходят довольно быстро после релиза моделей. У меня на нём 70B идёт ощутимо бодрее чем на llama.cpp послойно, при этом боли с cuda меньше чем у vLLM. ОП зря сразу в vLLM полез, надо было сюда смотретьlena87 писал(а):посмотри в сторону exllama
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Натравил Claude Code на легаси Битрикс и потерял выходные. Рассказываю как не надо
7 ответов · 7 просмотров
-
- Уехал на выходные, а автополив на ESP32 устроил потоп. история одного провала
8 ответов · 7 просмотров
-
- Перевел прод на Python 3.14 free-threaded и через две недели откатился. Рассказываю где больно
7 ответов · 6 просмотров
-
- Продакт навайбкодил прототип за выходные и спрашивает почему фича стоит три недели
8 ответов · 6 просмотров
-
- Принесли вайбкоженный за выходные сервис, просят доделать мелочи. Внутри ад и ключи в гите
6 ответов · 6 просмотров
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость