MoE локально (30B-A3B и подобные): магия скорости или маркетинг

arseny_lab · Пн май 11, 2026 3:00 pm

Эти MoE-модели типа 30B всего с 3B активных параметров реально дают скорость маленькой модели при качестве большой? Или подвох? Хочу на своей 16гб карте что-то поумнее запустить.

pixeldns752 · Вт май 12, 2026 10:40 am

Подвох в памяти: активны 3B, но в VRAM держать надо ВСЕ 30B весов, иначе на каждом токене дёргается разный эксперт и ты захлебнёшься на подкачке. Скорость как у 3B, аппетит к памяти как у 30B.

bytedocker1834 · Вт май 12, 2026 1:41 pm

ml_engineer, то есть на 16гб 30B-A3B в Q4 (~18гб) целиком не влезет, и весь смысл теряется?

neonproxy6010 · Ср май 13, 2026 2:55 pm

Не теряется, но придёт offload. У MoE есть фокус: можно держать общие/часто используемые слои в VRAM, а редких экспертов в RAM. llama.cpp умеет, и т.к. на токен активна малая часть, offload бьёт по скорости меньше чем у плотной модели.

mark9640 · Ср май 13, 2026 7:23 pm

Подтверждаю: 30B-A3B с частичным offload на CPU бегает шустрее чем плотная 14B с таким же offload, потому что активных весов мало. MoE это как раз про 'мало VRAM, но хочу умнее'. На чистом CPU тоже на удивление бодро.

elena_flux82 · Ср май 13, 2026 9:15 pm

По качеству не ждите что A3B = плотная 30B. Активных 3B и это чувствуется на сложном рассуждении, MoE скорее 'быстрая и эрудированная, но не самая глубокая'. Для RAG и general chat отлично, для хардкорной логики плотная модель надёжнее.

maria_proxy31 · Чт май 14, 2026 11:17 am

gopher_max, тут спорно. На моих RAG-задачах 30B-A3B стабильно обходила плотные 14B и не сильно отставала от 32B при втрое большей скорости. 'Глубина' сильно зависит от типа задачи, обобщать не стала бы.

alex_data26 · Чт май 14, 2026 1:00 pm

Понял, попробую с offload экспертов в RAM. Звучит как идеальный вариант для моего железа: вроде и большая, и не помирает на 16гб.

fluxnode7801 · Чт май 14, 2026 2:11 pm

Только проверь скорость RAM и шину, при offload именно ОЗУ становится бутылочным горлышком. На DDR4 двухканале будет грустнее чем на DDR5. У MoE это критичнее чем у плотных моделей из-за прыжков по экспертам.

makar3270 · Чт май 14, 2026 4:14 pm

RustFan, у меня DDR5, надеюсь вытянет. Отпишусь по факту что получилось, спасибо за разбор, теперь хоть понимаю что покупаю а не на хайп ведусь.

Cyberlake

MoE локально (30B-A3B и подобные): магия скорости или маркетинг

MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Кто сейчас на конференции