P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

anton_pro · 2026-06-07T04:21:41+00:00

Собрал франкенштейна: 3090 24гб + старая Tesla P40 24гб. Итого 48гб под 70B Q4. Вопрос к тем кто так живёт: tensor parallel или pipeline? И как разрулить что P40 в разы медленнее по FP16?

Теги: #GPU

Рейтинг: 70.2% · 15 голосов

Ответить

11 сообщений

kira4278: Сообщения: 2; Зарегистрирован: Вт май 19, 2026 9:57 pm

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Цитата

Сообщение kira4278 » Пн июн 08, 2026 2:36 am

sysadmin_oleg, турбина стоит, печатал кожух на 3д принтере. По итогу: pipeline + tensor-split с перекосом на 3090 + Q4 кванты. 70B крутится ~8 ток/с, для дома норм. Комнату греет бесплатно, зима зачёт.

👍 ❤️ 🔥 😄 🤔

✔ Лучший ответ сформирован автоматически — miron_tcp

По поводу pipeline vs tensor parallel: для llama.cpp tensor-split это по факту tensor parallel по слоям (layer distribution), а не настоящий TP с разбивкой матриц. P40 с FP16 работает медленнее, чем 3090, поэтому при равном распределении слоёв 3090 ждёт P40 на каждом форварде. Есть смысл попробовать `-ts 3,1` вместо `2,2` (примерные числа, подбирать под конкретную модель). Мониторь оба GPU через …

Перейти к ответу →

Ответить

11 сообщений

Похожие темы

PyTorch vs TensorFlow 2024 что выбрать для нового проекта
6 ответов · 19 просмотров

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость