GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

peekatwo · Сообщение **peekatwo** » 21 май 2026, 02:30

Вышли веса GLM-5-Air, 110B MoE с 12B активных, лицензия свободная, тащи куда хочешь. Все обсуждают большую GLM-5, а я погонял Air на своем нищесетапе и удивился.

Сетап: 3060 12GB, 64GB DDR5-6000, райзен 7600. Казалось бы, куда тут 110B.

Фокус в MoE офлоаде: llama.cpp, флаг --n-cpu-moe, эксперты уезжают в RAM, на видеокарте остаются attention, шаред-эксперты и KV-кэш. IQ4_XS весит 58 гигов, эксперты заняли в RAM около 52, на карте около 7 плюс кэш.

Цифры: генерация 9.3 t/s, prompt processing 95 t/s на 8к промпте. Девять токенов в секунду на модели класса 110B на карте за 25к рублей. Год назад не поверил бы.

Качество: по коду заметно лучше Qwen3-32B, по русскому вообще без вопросов. Минусы тоже есть: 64 гига впритык, браузер с вкладками уже не открыть, своп начинает шуршать.

kickmybox · Сообщение **kickmybox** » 21 май 2026, 04:12

9 t/s на 3060? серьезно? у меня dense 32B на той же карте с офлоадом еле 3 выдает. в чем магия

klop45 · Сообщение **klop45** » 21 май 2026, 07:08

@kickmybox, в том что активных параметров 12B, а не 110. на токен считается attention на карте плюс 12B экспертов из RAM. узкое место пропускная способность памяти, DDR5-6000 в двухканале это около 90 GB/s, вот и считай. на DDR4-3200 будет вдвое грустнее, токенов 5 от силы

stelios · Сообщение **stelios** » 21 май 2026, 07:21

peekatwo писал(а):prompt processing 95 t/s на 8к промпте

вот тут собака и зарыта. для чата 95 t/s норм, а попробуй агентский сценарий, где на каждый шаг прилетает 20-30к контекста. это три-четыре минуты ожидания до первого токена, и так на каждый вызов тула. генерация хоть 20 t/s, агент все равно мертвый. MoE офлоад это про чат и разовые длинные ответы, не надо продавать его как замену нормальной VRAM

nodice · Сообщение **nodice** » 21 май 2026, 08:26

не понимаю этих плясок. дистиллы и dense 32B в Q4 дают сравнимое качество и влезают в одну 3090 целиком, без свопа и забитой под крышку оперативки. MoE на офлоаде это красивая цифра 110B в заголовке и куча компромиссов в реальной жизни

redisguru · Сообщение **redisguru** » 21 май 2026, 11:00

nodice писал(а):дистиллы и dense 32B в Q4 дают сравнимое качество

ну это просто неправда. гонял обе на своих задачах, Air разносит 32B на агрегации длинных доков и на код-ревью, разница не в проценты, а в категорию. 110B знаний никуда не деваются, даже если активных 12. где 32B начинает выдумывать несуществующие API, Air спокойно вспоминает сигнатуры. компромиссы офлоада есть, но качество там честное

softlurker · Сообщение **softlurker** » 21 май 2026, 11:35

кто хочет выжать еще, гляньте ik_llama.cpp, форк заточен под смешанный CPU+GPU инференс MoE, на моем 7950x дает +25-30% к генерации против ванильной. и -ot 'exps=CPU' руками иногда работает лучше чем --n-cpu-moe, можно часть экспертов оставить на карте, если VRAM позволяет

juniorstack · Сообщение **juniorstack** » 21 май 2026, 13:38

@redisguru, самое смешное, что у нищесетапа главная статья расходов теперь не видеокарта. 2x32 DDR5 в начале 25го брал за 14к, сейчас в ситилинке те же плашки 29к. спасибо ИИ-буму, оперативка подорожала вдвое. так что 64 гига под MoE это уже не докинуть копейку, а вполне себе вложение

GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

Кто сейчас на конференции