P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Теги: #GPU
Рейтинг: 70.2% · 15 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Аватара пользователя
kira4278
Сообщения: 2
Зарегистрирован: Вт май 19, 2026 9:57 pm

Re: P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Сообщение kira4278 »

sysadmin_oleg, турбина стоит, печатал кожух на 3д принтере. По итогу: pipeline + tensor-split с перекосом на 3090 + Q4 кванты. 70B крутится ~8 ток/с, для дома норм. Комнату греет бесплатно, зима зачёт.
👍 ❤️ 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — miron_tcp
По поводу pipeline vs tensor parallel: для llama.cpp tensor-split это по факту tensor parallel по слоям (layer distribution), а не настоящий TP с разбивкой матриц. P40 с FP16 работает медленнее, чем 3090, поэтому при равном распределении слоёв 3090 ждёт P40 на каждом форварде. Есть смысл попробовать `-ts 3,1` вместо `2,2` (примерные числа, подбирать под конкретную модель). Мониторь оба GPU через …
Перейти к ответу →
Ответить
Поделиться темой: ✈ Telegram VK
  • Похожие темы

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость