Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно
Рейтинг: 52.9% · 8 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- coder_vlad
- Сообщения: 72
- Зарегистрирован: 11 май 2026, 01:57
Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно
Прогнал Qwen3 30B A3B (это MoE, активных 3B) против плотной 14B на своей 4090, и MoE не так однозначно выигрывает как кричат. По скорости да, 30B A3B летит как 3B потому что активных параметров мало, под 80 ток/с в q4. Но качество на моих задачах по коду местами хуже плотной 14B, особенно где нужно длинное связное рассуждение. Память при этом MoE жрёт как полноценные 30B, грузить надо все веса. Кто как видит, где MoE реально оправдан а где маркетинг.
✔ Лучший ответ сформирован автоматически — python5
развёрнуто по делу, тестил тот же сетап плотно. 30B A3B оправдан когда: у тебя есть вмрам на все веса (24гб+), нужна высокая пропускная способность токенов для пакетной обработки или агентских циклов где модель долго молотит, и задачи где ширина знаний важнее глубины одного длинного рассуждения. dense 14B оправдан когда: вмрам ограничена и ты хочешь максимум мозгов на гигабайт, нужны связные длин…
Re: Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно
@coder_vlad, MoE про скорость при большом размере, а не про то что он умнее dense той же активной мощности. 3B активных это и есть примерно уровень 3-4B по мозгам местами, чудес нет. ты память тратишь как на 30B а думает оно как мелочь, зато быстро. кому-то заходит кому-то нет
Re: Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно
вот это главный подвох который все замалчивают. народ думает MoE это халява, а ты платишь полной вмрам за весь набор экспертов. на 12-16 гб картах 30B A3B банально не влезет в q4 без оффлоада, и вся скорость съедается свопом слоёв в озу. на 24 гб и выше да, кайф, на затычках смысла нольcoder_vlad писал(а):память при этом MoE жрёт как полноценные 30B
Re: Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно
✔ Лучший ответ — сформирован автоматически
развёрнуто по делу, тестил тот же сетап плотно. 30B A3B оправдан когда: у тебя есть вмрам на все веса (24гб+), нужна высокая пропускная способность токенов для пакетной обработки или агентских циклов где модель долго молотит, и задачи где ширина знаний важнее глубины одного длинного рассуждения. dense 14B оправдан когда: вмрам ограничена и ты хочешь максимум мозгов на гигабайт, нужны связные длинные цепочки рассуждений, код с холдингом большого контекста в голове. по цифрам на 4090 у меня 30B A3B q4 даёт 75-85 ток/с генерации, 14B q4 около 45-50, но на бенче по сложному рефакторингу 14B выдавала рабочий код чаще. так что MoE это не лучше, это другой трейдофф, быстрее и шире но не глубже за те же активные параметры. маркетинг там в том что цифру 30B продают как будто оно думает на уровне 30B плотной, а это неправда, думает ближе к активным 3-8B смотря по задаче
- HaskellGuru
- Сообщения: 12
- Зарегистрирован: 17 май 2026, 00:52
- radiomaker
- Сообщения: 27
- Зарегистрирован: 24 май 2026, 00:35
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
- Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно
6 ответов · 9 просмотров
-
- Z-Image вышел и теперь спорим, он реально убил Flux на среднем железе или хайп
7 ответов · 4 просмотров
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость