vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

lucky1000 · Сообщение **lucky1000** » 12 май 2026, 09:07

Не могу поднять vLLM на двух RTX 3090 с tensor-parallel-size 2, валится на инициализации NCCL с таймаутом, одиночная карта работает нормально. Материнка обычная десктопная B650, карты воткнуты в x16 и x4 слоты, p2p между ними не работает (десктопные нвидиа его порезали). Питон 3.11, vllm свежий, cuda 12.4. Кто победил эту связку на потребительском железе, нужны рабочие переменные окружения или это тупик без серверной платы.

kube6 · Сообщение **kube6** » 12 май 2026, 11:14

@lucky1000, NCCL_P2P_DISABLE=1 пробовал? на десктопе без p2p оно само не догадывается и виснет. ещё NCCL_IB_DISABLE=1 на всякий

async10 · Сообщение **async10** » 12 май 2026, 14:26

x4 слот это боль для tensor parallel, там же постоянный обмен между картами идёт каждый слой, на pcie 4.0 x4 ты упрёшься в шину и скорость будет грустная даже если заведётся. для tp обе карты надо в полноценные x8/x16

grahamd · Сообщение **grahamd** » 12 май 2026, 19:21

lucky1000 писал(а):NCCL_P2P_DISABLE=1 пробовал

это первое что надо ставить на десктопе, без него на 3090 p2p сломан и нккл вешается намертво. у меня та же B-серия материнка, без этой переменной никак

rwiley · Сообщение **rwiley** » 12 май 2026, 23:04

@kube6, а зачем тебе вообще tensor parallel на двух картах для инференса, бери pipeline parallel, там обмен между картами на порядок меньше и x4 слот не так критичен. в vllm это другой флаг. tp нужен когда упираешься в латентность одного запроса, для пропускной способности pp часто удобнее и к шине нетребователен

aaannn · Сообщение **aaannn** » 13 май 2026, 01:56

рабочий рецепт, поднял ровно такую связку 3090 на B650. ставь переменные перед запуском: NCCL_P2P_DISABLE=1 и NCCL_SHM_DISABLE=1, без них зависает на инициализации намертво как у тебя. дальше для десктопа без нвлинка tensor parallel будет ограничен шиной, особенно если одна карта в x4, я физически переткнул чтобы обе были минимум x8 (пришлось райзер кинуть и в bios форсить bifurcation x8x8 на основном слоте). после этого 70B awq на двух 3090 поднялся, отдаёт 18-20 ток/с на одиночном запросе, на батче из 8 запросов суммарно за 100 ток/с. если переткнуть карты в x8x8 возможности нет, лучше уйди на pipeline-parallel-size 2 вместо tensor, потеряешь в латентности но не упрёшься в дохлый x4. и контролируй версию nccl, в некоторых сборках vllm была регрессия с таймаутами, помогал даунгрейд или явный NCCL_TIMEOUT повыше.

lhoanii · Сообщение **lhoanii** » 13 май 2026, 04:14

обычная десктопная плата под мультигпу инференс это всегда костыли. если серьёзно играешь в это, ищи бу серверную на эпике с кучей линий pcie, там и x16x16 и p2p живой. на потребительском всегда будешь подтыкать переменные и молиться

simon2100 · Сообщение **simon2100** » 13 май 2026, 04:46

@grahamd, помогло, спасибо. NCCL_P2P_DISABLE=1 плюс NCCL_SHM_DISABLE=1 и стартануло. скорость на x4 правда так себе как и предупреждали, буду райзер искать чтобы x8x8 сделать

vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

Re: vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

Re: vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

Re: vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

Re: vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

Re: vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

Re: vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

Re: vLLM на двух 3090 не стартует с tensor parallel, ошибка NCCL, что делать

Кто сейчас на конференции