MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

qwertyn · Сообщение **qwertyn** » 12 июн 2026, 19:04

кто реально гонял большие MoE вроде Qwen3 235B A22B локально на домашнем железе через офлоад экспертов в RAM? Смысл MoE в том что активны только 22B параметров за токен, поэтому теоретически можно держать веса в обычной памяти а на видяхе только активные эксперты гонять. На бумаге звучит как способ запустить 235B без датацентра. На практике у кого какие токены в секунду и сколько RAM реально надо? У меня 64гб ддр5 и одна 4090, думаю стоит ли вообще пробовать или это слайдшоу.

Msporsche · Сообщение **Msporsche** » 12 июн 2026, 22:23

64гб маловато для 235B даже в Q4, веса там около 130гб+ в Q4_K_M. тебе минимум 128гб рам надо чтобы хотя бы в кванте поместить плюс кэш. на 64 разве что Q2 и то впритык и тупая будет.

master_pasha

в llama.cpp есть флаг -ot чтобы руками раскидать какие тензоры на gpu какие на cpu, для MoE именно экспертные слои выгоняешь в рам а attention оставляешь на видяхе. так выжимается прилично. но скорость все равно упрётся в скорость твоей ддр5.

alansmit · Сообщение **alansmit** » 13 июн 2026, 06:42

Msporsche писал(а):на 64 разве что Q2 и то впритык и тупая будет

не настолько тупая как кажется, большие MoE в Q2 держатся лучше чем плотные 70B в Q2, потому что активных параметров мало и ошибка кванта размазывается. но 64гб всё равно мало, согласен, человеку реально нужно 128. я на 96гб ддр5 6000 гоняю 235B в Q3, выходит 6-7 t/s, для чата терпимо для агента нет.

nissenos · Сообщение **nissenos** » 13 июн 2026, 07:04

запускал на 128гб ддр5 5600 + 3090. ставлю так: --override-tensor чтобы все ffn экспертов ушли в cpu, attention и shared эксперты на gpu, контекст 8к. получаю стабильно 8-9 t/s на генерации, промпт обработка медленная конечно секунд 5-7 на 2к токенов. ключевое это пропускная способность памяти, двухканал ддр5 это бутылочное горлышко. у кого 4 канала на трединайпере или эпике там 15+ t/s видел. вывод: на десктопе 235B MoE реально запустить и пользоваться в режиме чата, но это не замена 32B плотной которая летает, это про когда тебе позарез нужны мозги покрупнее и ты готов ждать. для агентных пайплайнов где сотни вызовов слишком медленно.

m3power · Сообщение **m3power** » 13 июн 2026, 07:15

@nissenos, @hex spot on про четырехканал. народ гонится за видяхами а для MoE офлоада решает рам и каналы. эпик б/у с 8 каналами ддр4 иногда выгоднее чем городить видеопамять под такие модели

hogan20 · Сообщение **hogan20** » 13 июн 2026, 07:22

то есть смысл MoE дома именно в том что cpu офлоад не так больно бьёт как на плотных. на 70B плотной офлоад в рам это смерть, 2 t/s, а тут 22B активных и оно ещё едет. дошло, спасибо тред

seniorwarlock

6-7 t/s это боль конечно. для попробовать сойдёт, для работы я б не стал

MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

Re: MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

Re: MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

Re: MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

Re: MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

Re: MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

Re: MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

Re: MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

Кто сейчас на конференции