GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри
Рейтинг: 34.2% · 2 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри
Вышли веса GLM-5-Air, 110B MoE с 12B активных, лицензия свободная, тащи куда хочешь. Все обсуждают большую GLM-5, а я погонял Air на своем нищесетапе и удивился.
Сетап: 3060 12GB, 64GB DDR5-6000, райзен 7600. Казалось бы, куда тут 110B.
Фокус в MoE офлоаде: llama.cpp, флаг --n-cpu-moe, эксперты уезжают в RAM, на видеокарте остаются attention, шаред-эксперты и KV-кэш. IQ4_XS весит 58 гигов, эксперты заняли в RAM около 52, на карте около 7 плюс кэш.
Цифры: генерация 9.3 t/s, prompt processing 95 t/s на 8к промпте. Девять токенов в секунду на модели класса 110B на карте за 25к рублей. Год назад не поверил бы.
Качество: по коду заметно лучше Qwen3-32B, по русскому вообще без вопросов. Минусы тоже есть: 64 гига впритык, браузер с вкладками уже не открыть, своп начинает шуршать.
Сетап: 3060 12GB, 64GB DDR5-6000, райзен 7600. Казалось бы, куда тут 110B.
Фокус в MoE офлоаде: llama.cpp, флаг --n-cpu-moe, эксперты уезжают в RAM, на видеокарте остаются attention, шаред-эксперты и KV-кэш. IQ4_XS весит 58 гигов, эксперты заняли в RAM около 52, на карте около 7 плюс кэш.
Цифры: генерация 9.3 t/s, prompt processing 95 t/s на 8к промпте. Девять токенов в секунду на модели класса 110B на карте за 25к рублей. Год назад не поверил бы.
Качество: по коду заметно лучше Qwen3-32B, по русскому вообще без вопросов. Минусы тоже есть: 64 гига впритык, браузер с вкладками уже не открыть, своп начинает шуршать.
✔ Лучший ответ сформирован автоматически — stelios
peekatwo писал(а):prompt processing 95 t/s на 8к промпте вот тут собака и зарыта. для чата 95 t/s норм, а попробуй агентский сценарий, где на каждый шаг прилетает 20-30к контекста. это три-четыре минуты ожидания до первого токена, и так на каждый вызов тула. генерация хоть 20 t/s, агент все равно мертвый. MoE офлоад это про чат и разовые длинные ответы, не надо продавать его как замену нормальной…
Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри
@kickmybox, в том что активных параметров 12B, а не 110. на токен считается attention на карте плюс 12B экспертов из RAM. узкое место пропускная способность памяти, DDR5-6000 в двухканале это около 90 GB/s, вот и считай. на DDR4-3200 будет вдвое грустнее, токенов 5 от силы
Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри
✔ Лучший ответ — сформирован автоматически
вот тут собака и зарыта. для чата 95 t/s норм, а попробуй агентский сценарий, где на каждый шаг прилетает 20-30к контекста. это три-четыре минуты ожидания до первого токена, и так на каждый вызов тула. генерация хоть 20 t/s, агент все равно мертвый. MoE офлоад это про чат и разовые длинные ответы, не надо продавать его как замену нормальной VRAMpeekatwo писал(а):prompt processing 95 t/s на 8к промпте
Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри
не понимаю этих плясок. дистиллы и dense 32B в Q4 дают сравнимое качество и влезают в одну 3090 целиком, без свопа и забитой под крышку оперативки. MoE на офлоаде это красивая цифра 110B в заголовке и куча компромиссов в реальной жизни
Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри
ну это просто неправда. гонял обе на своих задачах, Air разносит 32B на агрегации длинных доков и на код-ревью, разница не в проценты, а в категорию. 110B знаний никуда не деваются, даже если активных 12. где 32B начинает выдумывать несуществующие API, Air спокойно вспоминает сигнатуры. компромиссы офлоада есть, но качество там честноеnodice писал(а):дистиллы и dense 32B в Q4 дают сравнимое качество
- softlurker
- Сообщения: 23
- Зарегистрирован: 16 май 2026, 13:16
Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри
кто хочет выжать еще, гляньте ik_llama.cpp, форк заточен под смешанный CPU+GPU инференс MoE, на моем 7950x дает +25-30% к генерации против ванильной. и -ot 'exps=CPU' руками иногда работает лучше чем --n-cpu-moe, можно часть экспертов оставить на карте, если VRAM позволяет
- juniorstack
- Сообщения: 62
- Зарегистрирован: 12 май 2026, 12:04
Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри
@redisguru, самое смешное, что у нищесетапа главная статья расходов теперь не видеокарта. 2x32 DDR5 в начале 25го брал за 14к, сейчас в ситилинке те же плашки 29к. спасибо ИИ-буму, оперативка подорожала вдвое. так что 64 гига под MoE это уже не докинуть копейку, а вполне себе вложение
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Запрос с JOIN тормозит на 5 секунд, EXPLAIN внутри — помогите разобраться
10 ответов · 645 просмотров
-
- Перестал считать фриланс-ставку по часам — перешёл на value-based. Цифры внутри
7 ответов · 618 просмотров
-
- Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли
5 ответов · 8 просмотров
-
-
- Принесли вайбкоженный за выходные сервис, просят доделать мелочи. Внутри ад и ключи в гите
6 ответов · 7 просмотров
-
- Полгода на PostgreSQL 18 в проде: замеры по async I/O, uuidv7 и pg_upgrade без боли
6 ответов · 6 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость