MoE локально (30B-A3B и подобные): магия скорости или маркетинг
Рейтинг: 52.9% · 8 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- arseny_lab
- Сообщения: 3
- Зарегистрирован: Пн май 11, 2026 4:28 am
- pixeldns752
- Сообщения: 15
- Зарегистрирован: Пн май 11, 2026 10:41 am
- bytedocker1834
- Сообщения: 26
- Зарегистрирован: Пн май 11, 2026 4:45 pm
- neonproxy6010
- Сообщения: 3
- Зарегистрирован: Вс май 10, 2026 9:29 pm
Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг
Не теряется, но придёт offload. У MoE есть фокус: можно держать общие/часто используемые слои в VRAM, а редких экспертов в RAM. llama.cpp умеет, и т.к. на токен активна малая часть, offload бьёт по скорости меньше чем у плотной модели.
- elena_flux82
- Сообщения: 4
- Зарегистрирован: Пн май 11, 2026 2:05 am
Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг
По качеству не ждите что A3B = плотная 30B. Активных 3B и это чувствуется на сложном рассуждении, MoE скорее 'быстрая и эрудированная, но не самая глубокая'. Для RAG и general chat отлично, для хардкорной логики плотная модель надёжнее.
- maria_proxy31
- Сообщения: 4
- Зарегистрирован: Пн май 11, 2026 8:15 am
- alex_data26
- Сообщения: 1
- Зарегистрирован: Вт май 12, 2026 11:54 am
- fluxnode7801
- Сообщения: 16
- Зарегистрирован: Пн май 11, 2026 9:35 am
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
- Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?
6 ответов · 323 просмотров
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость