vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

Рейтинг: 20.7% · 1 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
lucky1000
Сообщения: 24
Зарегистрирован: 12 май 2026, 22:45

vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

Сообщение lucky1000 »

Не могу поднять vLLM на двух RTX 3090 с tensor-parallel-size 2, валится на инициализации NCCL с таймаутом, одиночная карта работает нормально. Материнка обычная десктопная B650, карты воткнуты в x16 и x4 слоты, p2p между ними не работает (десктопные нвидиа его порезали). Питон 3.11, vllm свежий, cuda 12.4. Кто победил эту связку на потребительском железе, нужны рабочие переменные окружения или это тупик без серверной платы.
👍 ❤️ 🔥2 😄1 🤔2
✔ Лучший ответ сформирован автоматически — aaannn
рабочий рецепт, поднял ровно такую связку 3090 на B650. ставь переменные перед запуском: NCCL_P2P_DISABLE=1 и NCCL_SHM_DISABLE=1, без них зависает на инициализации намертво как у тебя. дальше для десктопа без нвлинка tensor parallel будет ограничен шиной, особенно если одна карта в x4, я физически переткнул чтобы обе были минимум x8 (пришлось райзер кинуть и в bios форсить bifurcation x8x8 на осн…
Перейти к ответу →
Аватара пользователя
kube6
Сообщения: 13
Зарегистрирован: 12 май 2026, 10:58

Re: vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

Сообщение kube6 »

@lucky1000, NCCL_P2P_DISABLE=1 пробовал? на десктопе без p2p оно само не догадывается и виснет. ещё NCCL_IB_DISABLE=1 на всякий
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
async10
Сообщения: 9
Зарегистрирован: 13 май 2026, 04:38

Re: vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

Сообщение async10 »

x4 слот это боль для tensor parallel, там же постоянный обмен между картами идёт каждый слой, на pcie 4.0 x4 ты упрёшься в шину и скорость будет грустная даже если заведётся. для tp обе карты надо в полноценные x8/x16
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
grahamd
Сообщения: 15
Зарегистрирован: 13 май 2026, 18:48

Re: vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

Сообщение grahamd »

lucky1000 писал(а):NCCL_P2P_DISABLE=1 пробовал
это первое что надо ставить на десктопе, без него на 3090 p2p сломан и нккл вешается намертво. у меня та же B-серия материнка, без этой переменной никак
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
rwiley
Сообщения: 2
Зарегистрирован: 16 май 2026, 04:33

Re: vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

Сообщение rwiley »

@kube6, а зачем тебе вообще tensor parallel на двух картах для инференса, бери pipeline parallel, там обмен между картами на порядок меньше и x4 слот не так критичен. в vllm это другой флаг. tp нужен когда упираешься в латентность одного запроса, для пропускной способности pp часто удобнее и к шине нетребователен
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
aaannn
Сообщения: 16
Зарегистрирован: 16 май 2026, 02:45

Re: vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

Сообщение aaannn »

✔ Лучший ответ — сформирован автоматически
рабочий рецепт, поднял ровно такую связку 3090 на B650. ставь переменные перед запуском: NCCL_P2P_DISABLE=1 и NCCL_SHM_DISABLE=1, без них зависает на инициализации намертво как у тебя. дальше для десктопа без нвлинка tensor parallel будет ограничен шиной, особенно если одна карта в x4, я физически переткнул чтобы обе были минимум x8 (пришлось райзер кинуть и в bios форсить bifurcation x8x8 на основном слоте). после этого 70B awq на двух 3090 поднялся, отдаёт 18-20 ток/с на одиночном запросе, на батче из 8 запросов суммарно за 100 ток/с. если переткнуть карты в x8x8 возможности нет, лучше уйди на pipeline-parallel-size 2 вместо tensor, потеряешь в латентности но не упрёшься в дохлый x4. и контролируй версию nccl, в некоторых сборках vllm была регрессия с таймаутами, помогал даунгрейд или явный NCCL_TIMEOUT повыше.
👍1 ❤️ 🔥2 😄 🤔1
Аватара пользователя
lhoanii
Сообщения: 8
Зарегистрирован: 15 май 2026, 07:30

Re: vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

Сообщение lhoanii »

обычная десктопная плата под мультигпу инференс это всегда костыли. если серьёзно играешь в это, ищи бу серверную на эпике с кучей линий pcie, там и x16x16 и p2p живой. на потребительском всегда будешь подтыкать переменные и молиться
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
simon2100
Сообщения: 2
Зарегистрирован: 11 май 2026, 20:04

Re: vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

Сообщение simon2100 »

@grahamd, помогло, спасибо. NCCL_P2P_DISABLE=1 плюс NCCL_SHM_DISABLE=1 и стартануло. скорость на x4 правда так себе как и предупреждали, буду райзер искать чтобы x8x8 сделать
👍 ❤️ 🔥2 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость