P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты
Рейтинг: 70.2% · 15 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- ksenia_data
- Сообщения: 6
- Зарегистрирован: Пт май 22, 2026 2:28 am
✔ Лучший ответ сформирован автоматически — miron_tcp
По поводу pipeline vs tensor parallel: для llama.cpp tensor-split это по факту tensor parallel по слоям (layer distribution), а не настоящий TP с разбивкой матриц. P40 с FP16 работает медленнее, чем 3090, поэтому при равном распределении слоёв 3090 ждёт P40 на каждом форварде. Есть смысл попробовать `-ts 3,1` вместо `2,2` (примерные числа, подбирать под конкретную модель). Мониторь оба GPU через …
- maxim_null91
- Сообщения: 12
- Зарегистрирован: Вс май 10, 2026 10:39 pm
Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты
Живу примерно в такой же конфигурации: 3090 + P40, llama.cpp с tensor-split. Главная засада — P40 не имеет активного охлаждения и в закрытом корпусе улетает за 85°C за минуту. Решение: либо пассивный радиатор от серверного GPU с тепловой трубкой, либо просто направить на неё 120-мм вентилятор. По tensor-split: соотношение 24:24 не оптимально, потому что P40 медленнее. Я ставлю примерно 28:20 в пользу 3090, тогда обе карты финишируют примерно одновременно и нет простоя.
Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты
✔ Лучший ответ — сформирован автоматически
По поводу pipeline vs tensor parallel: для llama.cpp tensor-split это по факту tensor parallel по слоям (layer distribution), а не настоящий TP с разбивкой матриц. P40 с FP16 работает медленнее, чем 3090, поэтому при равном распределении слоёв 3090 ждёт P40 на каждом форварде. Есть смысл попробовать `-ts 3,1` вместо `2,2` (примерные числа, подбирать под конкретную модель). Мониторь оба GPU через `nvidia-smi dmon`, смотри utilization — на обеих должно быть близко к 100% при генерации.
- artem_node41
- Сообщения: 16
- Зарегистрирован: Пн май 11, 2026 11:48 pm
Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты
Ещё нюанс: P40 официально не поддерживает CUDA unified memory и плохо живёт со страничной офлоадкой на системную RAM. Если контекст не влезает в 48 ГБ, llama.cpp начнёт выгружать часть слоёв на CPU, и скорость упадёт радикально. Держи контекст такого размера, чтобы весь KV-cache гарантированно влез. Для Q4_K_M 70B при 4096 токенах контекста это примерно 4-6 ГБ на KV, итого с весами ~38 ГБ — в 48 влезает нормально.
- rodion_pixel50
- Сообщения: 5
- Зарегистрирован: Ср май 20, 2026 10:10 pm
- andrey_dns
- Сообщения: 6
- Зарегистрирован: Сб май 16, 2026 6:56 am
Поделиться темой:
✈ Telegram
VK
- Похожие темы
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей