P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты
Рейтинг: 70.2% · 15 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
✔ Лучший ответ сформирован автоматически — miron_tcp
По поводу pipeline vs tensor parallel: для llama.cpp tensor-split это по факту tensor parallel по слоям (layer distribution), а не настоящий TP с разбивкой матриц. P40 с FP16 работает медленнее, чем 3090, поэтому при равном распределении слоёв 3090 ждёт P40 на каждом форварде. Есть смысл попробовать `-ts 3,1` вместо `2,2` (примерные числа, подбирать под конкретную модель). Мониторь оба GPU через …
Поделиться темой:
✈ Telegram
VK
- Похожие темы
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость