MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

Рейтинг: 52.9% · 8 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
qwertyn
Сообщения: 4
Зарегистрирован: 28 май 2026, 00:38

MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

Сообщение qwertyn »

кто реально гонял большие MoE вроде Qwen3 235B A22B локально на домашнем железе через офлоад экспертов в RAM? Смысл MoE в том что активны только 22B параметров за токен, поэтому теоретически можно держать веса в обычной памяти а на видяхе только активные эксперты гонять. На бумаге звучит как способ запустить 235B без датацентра. На практике у кого какие токены в секунду и сколько RAM реально надо? У меня 64гб ддр5 и одна 4090, думаю стоит ли вообще пробовать или это слайдшоу.
👍2 ❤️1 🔥2 😄 🤔1
✔ Лучший ответ сформирован автоматически — nissenos
запускал на 128гб ддр5 5600 + 3090. ставлю так: --override-tensor чтобы все ffn экспертов ушли в cpu, attention и shared эксперты на gpu, контекст 8к. получаю стабильно 8-9 t/s на генерации, промпт обработка медленная конечно секунд 5-7 на 2к токенов. ключевое это пропускная способность памяти, двухканал ддр5 это бутылочное горлышко. у кого 4 канала на трединайпере или эпике там 15+ t/s видел. вы…
Перейти к ответу →
Аватара пользователя
Msporsche
Сообщения: 2
Зарегистрирован: 14 май 2026, 22:13

Re: MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

Сообщение Msporsche »

64гб маловато для 235B даже в Q4, веса там около 130гб+ в Q4_K_M. тебе минимум 128гб рам надо чтобы хотя бы в кванте поместить плюс кэш. на 64 разве что Q2 и то впритык и тупая будет.
👍1 ❤️2 🔥1 😄 🤔
Аватара пользователя
master_pasha
Сообщения: 2
Зарегистрирован: 10 июн 2026, 03:27

Re: MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

Сообщение master_pasha »

в llama.cpp есть флаг -ot чтобы руками раскидать какие тензоры на gpu какие на cpu, для MoE именно экспертные слои выгоняешь в рам а attention оставляешь на видяхе. так выжимается прилично. но скорость все равно упрётся в скорость твоей ддр5.
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
alansmit
Сообщения: 84
Зарегистрирован: 13 май 2026, 00:35

Re: MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

Сообщение alansmit »

Msporsche писал(а):на 64 разве что Q2 и то впритык и тупая будет
не настолько тупая как кажется, большие MoE в Q2 держатся лучше чем плотные 70B в Q2, потому что активных параметров мало и ошибка кванта размазывается. но 64гб всё равно мало, согласен, человеку реально нужно 128. я на 96гб ддр5 6000 гоняю 235B в Q3, выходит 6-7 t/s, для чата терпимо для агента нет.
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
nissenos
Сообщения: 9
Зарегистрирован: 11 май 2026, 01:23

Re: MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

Сообщение nissenos »

✔ Лучший ответ — сформирован автоматически
запускал на 128гб ддр5 5600 + 3090. ставлю так: --override-tensor чтобы все ffn экспертов ушли в cpu, attention и shared эксперты на gpu, контекст 8к. получаю стабильно 8-9 t/s на генерации, промпт обработка медленная конечно секунд 5-7 на 2к токенов. ключевое это пропускная способность памяти, двухканал ддр5 это бутылочное горлышко. у кого 4 канала на трединайпере или эпике там 15+ t/s видел. вывод: на десктопе 235B MoE реально запустить и пользоваться в режиме чата, но это не замена 32B плотной которая летает, это про когда тебе позарез нужны мозги покрупнее и ты готов ждать. для агентных пайплайнов где сотни вызовов слишком медленно.
👍1 ❤️1 🔥1 😄1 🤔
Аватара пользователя
m3power
Сообщения: 42
Зарегистрирован: 16 май 2026, 21:33

Re: MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

Сообщение m3power »

@nissenos, @hex spot on про четырехканал. народ гонится за видяхами а для MoE офлоада решает рам и каналы. эпик б/у с 8 каналами ддр4 иногда выгоднее чем городить видеопамять под такие модели
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
hogan20
Сообщения: 71
Зарегистрирован: 13 май 2026, 12:49

Re: MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

Сообщение hogan20 »

то есть смысл MoE дома именно в том что cpu офлоад не так больно бьёт как на плотных. на 70B плотной офлоад в рам это смерть, 2 t/s, а тут 22B активных и оно ещё едет. дошло, спасибо тред
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
seniorwarlock
Сообщения: 57
Зарегистрирован: 12 май 2026, 00:23

Re: MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

Сообщение seniorwarlock »

6-7 t/s это боль конечно. для попробовать сойдёт, для работы я б не стал
👍 ❤️ 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость