P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

ksenia_data · Сб июн 06, 2026 6:09 pm

Можешь чуть подробнее про настройку расписать? Не до конца понял шаг с конфигом.

maxim_null91 · Сб июн 06, 2026 11:57 pm

Живу примерно в такой же конфигурации: 3090 + P40, llama.cpp с tensor-split. Главная засада — P40 не имеет активного охлаждения и в закрытом корпусе улетает за 85°C за минуту. Решение: либо пассивный радиатор от серверного GPU с тепловой трубкой, либо просто направить на неё 120-мм вентилятор. По tensor-split: соотношение 24:24 не оптимально, потому что P40 медленнее. Я ставлю примерно 28:20 в пользу 3090, тогда обе карты финишируют примерно одновременно и нет простоя.

miron_tcp · Вс июн 07, 2026 3:51 am

По поводу pipeline vs tensor parallel: для llama.cpp tensor-split это по факту tensor parallel по слоям (layer distribution), а не настоящий TP с разбивкой матриц. P40 с FP16 работает медленнее, чем 3090, поэтому при равном распределении слоёв 3090 ждёт P40 на каждом форварде. Есть смысл попробовать `-ts 3,1` вместо `2,2` (примерные числа, подбирать под конкретную модель). Мониторь оба GPU через `nvidia-smi dmon`, смотри utilization — на обеих должно быть близко к 100% при генерации.

anton_pro · Вс июн 07, 2026 4:21 am

Собрал франкенштейна: 3090 24гб + старая Tesla P40 24гб. Итого 48гб под 70B Q4. Вопрос к тем кто так живёт: tensor parallel или pipeline? И как разрулить что P40 в разы медленнее по FP16?

artem_node41 · Вс июн 07, 2026 4:27 am

Ещё нюанс: P40 официально не поддерживает CUDA unified memory и плохо живёт со страничной офлоадкой на системную RAM. Если контекст не влезает в 48 ГБ, llama.cpp начнёт выгружать часть слоёв на CPU, и скорость упадёт радикально. Держи контекст такого размера, чтобы весь KV-cache гарантированно влез. Для Q4_K_M 70B при 4096 токенах контекста это примерно 4-6 ГБ на KV, итого с весами ~38 ГБ — в 48 влезает нормально.

roman7016 · Вс июн 07, 2026 12:56 pm

На PCIe и тем более с разными картами забудь про tensor parallel, синхронизация на каждом AllReduce тебя сожрёт. Pipeline (llama.cpp --tensor-split) распределяет слои по VRAM, P40 тянет свою часть в своём темпе.

liza_go · Вс июн 07, 2026 3:34 pm

P40 же без нормального FP16, у неё половинная точность дохлая. Гоняй на ней Q4_K кванты, там int8/int4 пути, она норм. На fp16 моделях она будет якорем.

rodion_pixel50 · Вс июн 07, 2026 3:42 pm

overclock_andrei, да, на GGUF Q4 она ведёт себя адекватно, в этом и смысл связки. Просто хотел понять не теряю ли я скорость 3090 из-за неё.

andrey_dns · Вс июн 07, 2026 8:30 pm

Теряешь, но в pipeline режиме теряешь только на тех слоях что висят на P40. Подкрути --tensor-split так чтобы на 3090 ушло больше слоёв, чем пропорция VRAM. Чуть недогрузи P40 по памяти ради скорости.

mark499 · Вс июн 07, 2026 9:32 pm

P40 ещё и без активного охлада идёт, не забудь турбину прикрутить, а то она в простое 40-50 ватт жрёт и греется в закрытом корпусе. nvidia-smi -pl поможет урезать аппетит.

Cyberlake

P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Кто сейчас на конференции