P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Теги: #GPU
Рейтинг: 70.2% · 15 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Аватара пользователя
ksenia_data
Сообщения: 6
Зарегистрирован: Пт май 22, 2026 2:28 am

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Сообщение ksenia_data »

Можешь чуть подробнее про настройку расписать? Не до конца понял шаг с конфигом.
👍1 ❤️ 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — miron_tcp
По поводу pipeline vs tensor parallel: для llama.cpp tensor-split это по факту tensor parallel по слоям (layer distribution), а не настоящий TP с разбивкой матриц. P40 с FP16 работает медленнее, чем 3090, поэтому при равном распределении слоёв 3090 ждёт P40 на каждом форварде. Есть смысл попробовать `-ts 3,1` вместо `2,2` (примерные числа, подбирать под конкретную модель). Мониторь оба GPU через …
Перейти к ответу →
Аватара пользователя
maxim_null91
Сообщения: 12
Зарегистрирован: Вс май 10, 2026 10:39 pm

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Сообщение maxim_null91 »

Живу примерно в такой же конфигурации: 3090 + P40, llama.cpp с tensor-split. Главная засада — P40 не имеет активного охлаждения и в закрытом корпусе улетает за 85°C за минуту. Решение: либо пассивный радиатор от серверного GPU с тепловой трубкой, либо просто направить на неё 120-мм вентилятор. По tensor-split: соотношение 24:24 не оптимально, потому что P40 медленнее. Я ставлю примерно 28:20 в пользу 3090, тогда обе карты финишируют примерно одновременно и нет простоя.
👍3 ❤️1 🔥 😄1 🤔
Аватара пользователя
miron_tcp
Сообщения: 6
Зарегистрирован: Вт май 12, 2026 4:04 pm

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Сообщение miron_tcp »

✔ Лучший ответ — сформирован автоматически
По поводу pipeline vs tensor parallel: для llama.cpp tensor-split это по факту tensor parallel по слоям (layer distribution), а не настоящий TP с разбивкой матриц. P40 с FP16 работает медленнее, чем 3090, поэтому при равном распределении слоёв 3090 ждёт P40 на каждом форварде. Есть смысл попробовать `-ts 3,1` вместо `2,2` (примерные числа, подбирать под конкретную модель). Мониторь оба GPU через `nvidia-smi dmon`, смотри utilization — на обеих должно быть близко к 100% при генерации.
👍1 ❤️ 🔥 😄1 🤔
Аватара пользователя
anton_pro
Сообщения: 3
Зарегистрирован: Пн май 11, 2026 9:47 am

P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Сообщение anton_pro »

Собрал франкенштейна: 3090 24гб + старая Tesla P40 24гб. Итого 48гб под 70B Q4. Вопрос к тем кто так живёт: tensor parallel или pipeline? И как разрулить что P40 в разы медленнее по FP16?
👍 ❤️ 🔥2 😄 🤔
Аватара пользователя
artem_node41
Сообщения: 16
Зарегистрирован: Пн май 11, 2026 11:48 pm

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Сообщение artem_node41 »

Ещё нюанс: P40 официально не поддерживает CUDA unified memory и плохо живёт со страничной офлоадкой на системную RAM. Если контекст не влезает в 48 ГБ, llama.cpp начнёт выгружать часть слоёв на CPU, и скорость упадёт радикально. Держи контекст такого размера, чтобы весь KV-cache гарантированно влез. Для Q4_K_M 70B при 4096 токенах контекста это примерно 4-6 ГБ на KV, итого с весами ~38 ГБ — в 48 влезает нормально.
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
roman7016
Сообщения: 36
Зарегистрирован: Вт май 12, 2026 12:05 am

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Сообщение roman7016 »

На PCIe и тем более с разными картами забудь про tensor parallel, синхронизация на каждом AllReduce тебя сожрёт. Pipeline (llama.cpp --tensor-split) распределяет слои по VRAM, P40 тянет свою часть в своём темпе.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
liza_go
Сообщения: 11
Зарегистрирован: Чт май 14, 2026 10:05 pm

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Сообщение liza_go »

P40 же без нормального FP16, у неё половинная точность дохлая. Гоняй на ней Q4_K кванты, там int8/int4 пути, она норм. На fp16 моделях она будет якорем.
👍1 ❤️ 🔥 😄1 🤔
Аватара пользователя
rodion_pixel50
Сообщения: 5
Зарегистрирован: Ср май 20, 2026 10:10 pm

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Сообщение rodion_pixel50 »

overclock_andrei, да, на GGUF Q4 она ведёт себя адекватно, в этом и смысл связки. Просто хотел понять не теряю ли я скорость 3090 из-за неё.
👍6 ❤️ 🔥2 😄1 🤔1
Аватара пользователя
andrey_dns
Сообщения: 6
Зарегистрирован: Сб май 16, 2026 6:56 am

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Сообщение andrey_dns »

Теряешь, но в pipeline режиме теряешь только на тех слоях что висят на P40. Подкрути --tensor-split так чтобы на 3090 ушло больше слоёв, чем пропорция VRAM. Чуть недогрузи P40 по памяти ради скорости.
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
mark499
Сообщения: 3
Зарегистрирован: Сб май 23, 2026 8:57 am

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Сообщение mark499 »

P40 ещё и без активного охлада идёт, не забудь турбину прикрутить, а то она в простое 40-50 ватт жрёт и греется в закрытом корпусе. nvidia-smi -pl поможет урезать аппетит.
👍2 ❤️ 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK
  • Похожие темы

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей