Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

Рейтинг: 48.7% · 7 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
torch22
Сообщения: 43
Зарегистрирован: 11 май 2026, 20:50

Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

Сообщение torch22 »

История провала для тех кто думает что vLLM это серебряная пуля для двух карт. Поставил себе цель завести 70B на 2x3090 с настоящим тензор параллелизмом чтобы получить скорость выше чем llama.cpp с её послойной разбивкой. Потратил все выходные, в итоге откатился обратно. vLLM требует gptq/awq кванты, gguf он толком не ест, нормальный awq quant нужной модели ещё найти надо, версии cuda и torch конфликтуют, на потребительских картах половина оптимизаций отключена. Завёл в итоге, получил 22 ток/сек против 17 на llama.cpp. Два дня ради +5 токенов. Делюсь чтобы вы не наступали.
👍1 ❤️ 🔥 😄 🤔1
✔ Лучший ответ сформирован автоматически — lena87
@torch22, Раз тема про честное сравнение, добавлю конкретики чтобы новичкам было понятно когда что брать. Тензор параллелизм в vLLM реально работает и реально быстрее послойной разбивки llama.cpp, но выигрыш на батче 1 (один пользователь, один запрос) скромный, те самые +20-30 процентов что человек и получил. Настоящая магия vLLM включается на батчинге: если ты обслуживаешь несколько запросов одн…
Перейти к ответу →
Аватара пользователя
Kutz
Сообщения: 71
Зарегистрирован: 16 май 2026, 02:21

Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

Сообщение Kutz »

ну так vLLM это серверное решение под батчинг многих запросов, его сила не в одиночном чате а когда к тебе ломится 50 параллельных юзеров. Для домашнего одиночного инференса llama.cpp правильный выбор, ты просто инструмент не под ту задачу выбрал
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
torch22
Сообщения: 43
Зарегистрирован: 11 май 2026, 20:50

Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

Сообщение torch22 »

@Kutz, +5 токенов это ещё ты удачно отделался, у меня вообще не завелось из за awq кванта который кто-то криво собрал, модель грузилась и выдавала кашу
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
sierra1
Сообщения: 8
Зарегистрирован: 21 май 2026, 09:59

Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

Сообщение sierra1 »

torch22 писал(а):vLLM требует gptq/awq кванты, gguf он толком не ест
формально gguf поддержку в vLLM завезли давно, но она там сырая и медленная, по факту ты прав что нормально работают только awq/gptq. И вот тут засада для СНГ: готовых awq квантов под свежие модели часто нет, а собирать самому это отдельный геморрой с калибровочным датасетом и кучей vram под сам процесс квантизации. На gguf же кванты выходят в день релиза модели. Это реальный довод за llama.cpp если ты не хочешь ждать.
👍 ❤️ 🔥2 😄1 🤔
Аватара пользователя
lena77
Сообщения: 5
Зарегистрирован: 24 май 2026, 06:35

Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

Сообщение lena77 »

@torch22, серьёзно два дня? за пару часов всё ставится в докере
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
larrivee2002
Сообщения: 9
Зарегистрирован: 12 май 2026, 03:00

Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

Сообщение larrivee2002 »

@lena77, @speedrun в докере если образ под твою cuda есть и кванты готовые лежат да. А если карты потребительские, кванта нет, и ты собираешь окружение руками потому что готовый образ падает, вот тебе и два дня. Не у всех всё гладко ложится, удивительно правда
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
lena87
Сообщения: 18
Зарегистрирован: 11 май 2026, 04:24

Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

Сообщение lena87 »

✔ Лучший ответ — сформирован автоматически
@torch22, Раз тема про честное сравнение, добавлю конкретики чтобы новичкам было понятно когда что брать. Тензор параллелизм в vLLM реально работает и реально быстрее послойной разбивки llama.cpp, но выигрыш на батче 1 (один пользователь, один запрос) скромный, те самые +20-30 процентов что человек и получил. Настоящая магия vLLM включается на батчинге: если ты обслуживаешь несколько запросов одновременно, llama.cpp деградирует, а vLLM держит суммарную пропускную способность в разы выше за счёт continuous batching и paged attention. Поэтому правило простое: один человек дома, интерактивный чат или агент в один поток, бери llama.cpp или ollama, не мучайся. Делаешь сервис на отдел или публичный апи с десятками одновременных юзеров, тогда vLLM окупит весь геморрой с awq и cuda. Промежуточный вариант если очень хочется TP но не хочется vLLM боли, посмотри в сторону exllama v2/v3, там тензор параллелизм и нормальные кванты, на 2x3090 многие именно его держат как компромисс между скоростью vLLM и удобством llama.cpp.
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
andrei11
Сообщения: 2
Зарегистрирован: 15 май 2026, 21:14

Re: Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp

Сообщение andrei11 »

lena87 писал(а):посмотри в сторону exllama
вот это дельный совет, на 2x3090 exllama даёт честный TP и свои exl2 кванты выходят довольно быстро после релиза моделей. У меня на нём 70B идёт ощутимо бодрее чем на llama.cpp послойно, при этом боли с cuda меньше чем у vLLM. ОП зря сразу в vLLM полез, надо было сюда смотреть
👍 ❤️ 🔥 😄 🤔1
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость