MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Рейтинг: 52.9% · 8 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Аватара пользователя
arseny_lab
Сообщения: 3
Зарегистрирован: Пн май 11, 2026 4:28 am

MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Сообщение arseny_lab »

Эти MoE-модели типа 30B всего с 3B активных параметров реально дают скорость маленькой модели при качестве большой? Или подвох? Хочу на своей 16гб карте что-то поумнее запустить.
👍 ❤️ 🔥1 😄1 🤔
Аватара пользователя
pixeldns752
Сообщения: 15
Зарегистрирован: Пн май 11, 2026 10:41 am

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Сообщение pixeldns752 »

Подвох в памяти: активны 3B, но в VRAM держать надо ВСЕ 30B весов, иначе на каждом токене дёргается разный эксперт и ты захлебнёшься на подкачке. Скорость как у 3B, аппетит к памяти как у 30B.
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
bytedocker1834
Сообщения: 26
Зарегистрирован: Пн май 11, 2026 4:45 pm

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Сообщение bytedocker1834 »

ml_engineer, то есть на 16гб 30B-A3B в Q4 (~18гб) целиком не влезет, и весь смысл теряется?
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
neonproxy6010
Сообщения: 3
Зарегистрирован: Вс май 10, 2026 9:29 pm

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Сообщение neonproxy6010 »

Не теряется, но придёт offload. У MoE есть фокус: можно держать общие/часто используемые слои в VRAM, а редких экспертов в RAM. llama.cpp умеет, и т.к. на токен активна малая часть, offload бьёт по скорости меньше чем у плотной модели.
👍2 ❤️1 🔥1 😄1 🤔
Аватара пользователя
mark9640
Сообщения: 26
Зарегистрирован: Пн май 11, 2026 4:32 am

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Сообщение mark9640 »

Подтверждаю: 30B-A3B с частичным offload на CPU бегает шустрее чем плотная 14B с таким же offload, потому что активных весов мало. MoE это как раз про 'мало VRAM, но хочу умнее'. На чистом CPU тоже на удивление бодро.
👍2 ❤️ 🔥 😄 🤔
Аватара пользователя
elena_flux82
Сообщения: 4
Зарегистрирован: Пн май 11, 2026 2:05 am

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Сообщение elena_flux82 »

По качеству не ждите что A3B = плотная 30B. Активных 3B и это чувствуется на сложном рассуждении, MoE скорее 'быстрая и эрудированная, но не самая глубокая'. Для RAG и general chat отлично, для хардкорной логики плотная модель надёжнее.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
maria_proxy31
Сообщения: 4
Зарегистрирован: Пн май 11, 2026 8:15 am

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Сообщение maria_proxy31 »

gopher_max, тут спорно. На моих RAG-задачах 30B-A3B стабильно обходила плотные 14B и не сильно отставала от 32B при втрое большей скорости. 'Глубина' сильно зависит от типа задачи, обобщать не стала бы.
👍1 ❤️2 🔥2 😄 🤔
Аватара пользователя
alex_data26
Сообщения: 1
Зарегистрирован: Вт май 12, 2026 11:54 am

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Сообщение alex_data26 »

Понял, попробую с offload экспертов в RAM. Звучит как идеальный вариант для моего железа: вроде и большая, и не помирает на 16гб.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
fluxnode7801
Сообщения: 16
Зарегистрирован: Пн май 11, 2026 9:35 am

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Сообщение fluxnode7801 »

Только проверь скорость RAM и шину, при offload именно ОЗУ становится бутылочным горлышком. На DDR4 двухканале будет грустнее чем на DDR5. У MoE это критичнее чем у плотных моделей из-за прыжков по экспертам.
👍 ❤️ 🔥1 😄 🤔1
Аватара пользователя
makar3270
Сообщения: 6
Зарегистрирован: Вт май 12, 2026 10:35 pm

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Сообщение makar3270 »

RustFan, у меня DDR5, надеюсь вытянет. Отпишусь по факту что получилось, спасибо за разбор, теперь хоть понимаю что покупаю а не на хайп ведусь.
👍4 ❤️ 🔥1 😄 🤔3
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей