Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

coder_vlad · Сообщение **coder_vlad** » 07 июн 2026, 14:00

Прогнал Qwen3 30B A3B (это MoE, активных 3B) против плотной 14B на своей 4090, и MoE не так однозначно выигрывает как кричат. По скорости да, 30B A3B летит как 3B потому что активных параметров мало, под 80 ток/с в q4. Но качество на моих задачах по коду местами хуже плотной 14B, особенно где нужно длинное связное рассуждение. Память при этом MoE жрёт как полноценные 30B, грузить надо все веса. Кто как видит, где MoE реально оправдан а где маркетинг.

Vvz1995 · Сообщение **Vvz1995** » 07 июн 2026, 18:24

@coder_vlad, MoE про скорость при большом размере, а не про то что он умнее dense той же активной мощности. 3B активных это и есть примерно уровень 3-4B по мозгам местами, чудес нет. ты память тратишь как на 30B а думает оно как мелочь, зато быстро. кому-то заходит кому-то нет

roman2026 · Сообщение **roman2026** » 07 июн 2026, 20:53

у меня наоборот 30B A3B заметно лучше на агентских задачах с тулколлами чем 14B, может у тебя промпт под dense заточен. на чём гонял, сколько контекст

torch22 · Сообщение **torch22** » 07 июн 2026, 21:36

coder_vlad писал(а):память при этом MoE жрёт как полноценные 30B

вот это главный подвох который все замалчивают. народ думает MoE это халява, а ты платишь полной вмрам за весь набор экспертов. на 12-16 гб картах 30B A3B банально не влезет в q4 без оффлоада, и вся скорость съедается свопом слоёв в озу. на 24 гб и выше да, кайф, на затычках смысла ноль

rburr · Сообщение **rburr** » 07 июн 2026, 23:00

холивар ради холивара. бери модель которая решает твою задачу и не смотри dense там или moe под капотом, тебе шашечки или ехать

python5 · Сообщение **python5** » 08 июн 2026, 02:58

развёрнуто по делу, тестил тот же сетап плотно. 30B A3B оправдан когда: у тебя есть вмрам на все веса (24гб+), нужна высокая пропускная способность токенов для пакетной обработки или агентских циклов где модель долго молотит, и задачи где ширина знаний важнее глубины одного длинного рассуждения. dense 14B оправдан когда: вмрам ограничена и ты хочешь максимум мозгов на гигабайт, нужны связные длинные цепочки рассуждений, код с холдингом большого контекста в голове. по цифрам на 4090 у меня 30B A3B q4 даёт 75-85 ток/с генерации, 14B q4 около 45-50, но на бенче по сложному рефакторингу 14B выдавала рабочий код чаще. так что MoE это не лучше, это другой трейдофф, быстрее и шире но не глубже за те же активные параметры. маркетинг там в том что цифру 30B продают как будто оно думает на уровне 30B плотной, а это неправда, думает ближе к активным 3-8B смотря по задаче

HaskellGuru · Сообщение **HaskellGuru** » 08 июн 2026, 07:28

python5 писал(а):думает ближе к активным 3-8B

плюсую, это надо в шапку любого треда про moe вешать. народ ведётся на большую цифру параметров

radiomaker · Сообщение **radiomaker** » 08 июн 2026, 10:08

а мне зашло что на cpu-онли 30B A3B вполне живой, активных мало значит и без видяхи на ддр5 терпимо генерит, плотную 30B так не запустишь. вот тут moe реально спасает кто без карты сидит

Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Re: Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Re: Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Re: Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Re: Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Re: Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Re: Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Re: Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Кто сейчас на конференции