Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Рейтинг: 52.9% · 8 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
coder_vlad
Сообщения: 72
Зарегистрирован: 11 май 2026, 01:57

Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Сообщение coder_vlad »

Прогнал Qwen3 30B A3B (это MoE, активных 3B) против плотной 14B на своей 4090, и MoE не так однозначно выигрывает как кричат. По скорости да, 30B A3B летит как 3B потому что активных параметров мало, под 80 ток/с в q4. Но качество на моих задачах по коду местами хуже плотной 14B, особенно где нужно длинное связное рассуждение. Память при этом MoE жрёт как полноценные 30B, грузить надо все веса. Кто как видит, где MoE реально оправдан а где маркетинг.
👍 ❤️ 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — python5
развёрнуто по делу, тестил тот же сетап плотно. 30B A3B оправдан когда: у тебя есть вмрам на все веса (24гб+), нужна высокая пропускная способность токенов для пакетной обработки или агентских циклов где модель долго молотит, и задачи где ширина знаний важнее глубины одного длинного рассуждения. dense 14B оправдан когда: вмрам ограничена и ты хочешь максимум мозгов на гигабайт, нужны связные длин…
Перейти к ответу →
Аватара пользователя
Vvz1995
Сообщения: 34
Зарегистрирован: 14 май 2026, 01:29

Re: Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Сообщение Vvz1995 »

@coder_vlad, MoE про скорость при большом размере, а не про то что он умнее dense той же активной мощности. 3B активных это и есть примерно уровень 3-4B по мозгам местами, чудес нет. ты память тратишь как на 30B а думает оно как мелочь, зато быстро. кому-то заходит кому-то нет
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
roman2026
Сообщения: 39
Зарегистрирован: 10 май 2026, 23:40

Re: Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Сообщение roman2026 »

у меня наоборот 30B A3B заметно лучше на агентских задачах с тулколлами чем 14B, может у тебя промпт под dense заточен. на чём гонял, сколько контекст
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
torch22
Сообщения: 43
Зарегистрирован: 11 май 2026, 20:50

Re: Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Сообщение torch22 »

coder_vlad писал(а):память при этом MoE жрёт как полноценные 30B
вот это главный подвох который все замалчивают. народ думает MoE это халява, а ты платишь полной вмрам за весь набор экспертов. на 12-16 гб картах 30B A3B банально не влезет в q4 без оффлоада, и вся скорость съедается свопом слоёв в озу. на 24 гб и выше да, кайф, на затычках смысла ноль
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
rburr
Сообщения: 77
Зарегистрирован: 12 май 2026, 17:53

Re: Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Сообщение rburr »

холивар ради холивара. бери модель которая решает твою задачу и не смотри dense там или moe под капотом, тебе шашечки или ехать
👍2 ❤️ 🔥1 😄1 🤔
Аватара пользователя
python5
Сообщения: 6
Зарегистрирован: 16 май 2026, 11:24

Re: Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Сообщение python5 »

✔ Лучший ответ — сформирован автоматически
развёрнуто по делу, тестил тот же сетап плотно. 30B A3B оправдан когда: у тебя есть вмрам на все веса (24гб+), нужна высокая пропускная способность токенов для пакетной обработки или агентских циклов где модель долго молотит, и задачи где ширина знаний важнее глубины одного длинного рассуждения. dense 14B оправдан когда: вмрам ограничена и ты хочешь максимум мозгов на гигабайт, нужны связные длинные цепочки рассуждений, код с холдингом большого контекста в голове. по цифрам на 4090 у меня 30B A3B q4 даёт 75-85 ток/с генерации, 14B q4 около 45-50, но на бенче по сложному рефакторингу 14B выдавала рабочий код чаще. так что MoE это не лучше, это другой трейдофф, быстрее и шире но не глубже за те же активные параметры. маркетинг там в том что цифру 30B продают как будто оно думает на уровне 30B плотной, а это неправда, думает ближе к активным 3-8B смотря по задаче
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
HaskellGuru
Сообщения: 12
Зарегистрирован: 17 май 2026, 00:52

Re: Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Сообщение HaskellGuru »

python5 писал(а):думает ближе к активным 3-8B
плюсую, это надо в шапку любого треда про moe вешать. народ ведётся на большую цифру параметров
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
radiomaker
Сообщения: 27
Зарегистрирован: 24 май 2026, 00:35

Re: Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Сообщение radiomaker »

а мне зашло что на cpu-онли 30B A3B вполне живой, активных мало значит и без видяхи на ддр5 терпимо генерит, плотную 30B так не запустишь. вот тут moe реально спасает кто без карты сидит
👍 ❤️ 🔥 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя