MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал
Рейтинг: 52.9% · 8 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал
кто реально гонял большие MoE вроде Qwen3 235B A22B локально на домашнем железе через офлоад экспертов в RAM? Смысл MoE в том что активны только 22B параметров за токен, поэтому теоретически можно держать веса в обычной памяти а на видяхе только активные эксперты гонять. На бумаге звучит как способ запустить 235B без датацентра. На практике у кого какие токены в секунду и сколько RAM реально надо? У меня 64гб ддр5 и одна 4090, думаю стоит ли вообще пробовать или это слайдшоу.
✔ Лучший ответ сформирован автоматически — nissenos
запускал на 128гб ддр5 5600 + 3090. ставлю так: --override-tensor чтобы все ffn экспертов ушли в cpu, attention и shared эксперты на gpu, контекст 8к. получаю стабильно 8-9 t/s на генерации, промпт обработка медленная конечно секунд 5-7 на 2к токенов. ключевое это пропускная способность памяти, двухканал ддр5 это бутылочное горлышко. у кого 4 канала на трединайпере или эпике там 15+ t/s видел. вы…
- master_pasha
- Сообщения: 2
- Зарегистрирован: 10 июн 2026, 03:27
Re: MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал
в llama.cpp есть флаг -ot чтобы руками раскидать какие тензоры на gpu какие на cpu, для MoE именно экспертные слои выгоняешь в рам а attention оставляешь на видяхе. так выжимается прилично. но скорость все равно упрётся в скорость твоей ддр5.
Re: MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал
не настолько тупая как кажется, большие MoE в Q2 держатся лучше чем плотные 70B в Q2, потому что активных параметров мало и ошибка кванта размазывается. но 64гб всё равно мало, согласен, человеку реально нужно 128. я на 96гб ддр5 6000 гоняю 235B в Q3, выходит 6-7 t/s, для чата терпимо для агента нет.Msporsche писал(а):на 64 разве что Q2 и то впритык и тупая будет
Re: MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал
✔ Лучший ответ — сформирован автоматически
запускал на 128гб ддр5 5600 + 3090. ставлю так: --override-tensor чтобы все ffn экспертов ушли в cpu, attention и shared эксперты на gpu, контекст 8к. получаю стабильно 8-9 t/s на генерации, промпт обработка медленная конечно секунд 5-7 на 2к токенов. ключевое это пропускная способность памяти, двухканал ддр5 это бутылочное горлышко. у кого 4 канала на трединайпере или эпике там 15+ t/s видел. вывод: на десктопе 235B MoE реально запустить и пользоваться в режиме чата, но это не замена 32B плотной которая летает, это про когда тебе позарез нужны мозги покрупнее и ты готов ждать. для агентных пайплайнов где сотни вызовов слишком медленно.
- seniorwarlock
- Сообщения: 57
- Зарегистрирован: 12 май 2026, 00:23
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
- Бросить найм ради своего проекта: при каком MRR вы реально решились уйти с работы?
10 ответов · 2040 просмотров
-
- С чего реально начать в пентесте в 2026? TryHackMe, HTB или сразу сертификаты?
12 ответов · 1917 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость