GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

Рейтинг: 34.2% · 2 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
peekatwo
Сообщения: 38
Зарегистрирован: 12 май 2026, 03:30

GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

Сообщение peekatwo »

Вышли веса GLM-5-Air, 110B MoE с 12B активных, лицензия свободная, тащи куда хочешь. Все обсуждают большую GLM-5, а я погонял Air на своем нищесетапе и удивился.

Сетап: 3060 12GB, 64GB DDR5-6000, райзен 7600. Казалось бы, куда тут 110B.

Фокус в MoE офлоаде: llama.cpp, флаг --n-cpu-moe, эксперты уезжают в RAM, на видеокарте остаются attention, шаред-эксперты и KV-кэш. IQ4_XS весит 58 гигов, эксперты заняли в RAM около 52, на карте около 7 плюс кэш.

Цифры: генерация 9.3 t/s, prompt processing 95 t/s на 8к промпте. Девять токенов в секунду на модели класса 110B на карте за 25к рублей. Год назад не поверил бы.

Качество: по коду заметно лучше Qwen3-32B, по русскому вообще без вопросов. Минусы тоже есть: 64 гига впритык, браузер с вкладками уже не открыть, своп начинает шуршать.
👍3 ❤️ 🔥 😄1 🤔
✔ Лучший ответ сформирован автоматически — stelios
peekatwo писал(а):prompt processing 95 t/s на 8к промпте вот тут собака и зарыта. для чата 95 t/s норм, а попробуй агентский сценарий, где на каждый шаг прилетает 20-30к контекста. это три-четыре минуты ожидания до первого токена, и так на каждый вызов тула. генерация хоть 20 t/s, агент все равно мертвый. MoE офлоад это про чат и разовые длинные ответы, не надо продавать его как замену нормальной…
Перейти к ответу →
Аватара пользователя
kickmybox
Сообщения: 60
Зарегистрирован: 11 май 2026, 08:23

Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

Сообщение kickmybox »

9 t/s на 3060? серьезно? у меня dense 32B на той же карте с офлоадом еле 3 выдает. в чем магия
👍1 ❤️2 🔥1 😄 🤔
Аватара пользователя
klop45
Сообщения: 13
Зарегистрирован: 24 май 2026, 16:43

Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

Сообщение klop45 »

@kickmybox, в том что активных параметров 12B, а не 110. на токен считается attention на карте плюс 12B экспертов из RAM. узкое место пропускная способность памяти, DDR5-6000 в двухканале это около 90 GB/s, вот и считай. на DDR4-3200 будет вдвое грустнее, токенов 5 от силы
👍 ❤️ 🔥 😄 🤔1
Аватара пользователя
stelios
Сообщения: 1
Зарегистрирован: 28 май 2026, 19:30

Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

Сообщение stelios »

✔ Лучший ответ — сформирован автоматически
peekatwo писал(а):prompt processing 95 t/s на 8к промпте
вот тут собака и зарыта. для чата 95 t/s норм, а попробуй агентский сценарий, где на каждый шаг прилетает 20-30к контекста. это три-четыре минуты ожидания до первого токена, и так на каждый вызов тула. генерация хоть 20 t/s, агент все равно мертвый. MoE офлоад это про чат и разовые длинные ответы, не надо продавать его как замену нормальной VRAM
👍2 ❤️1 🔥 😄 🤔
Аватара пользователя
nodice
Сообщения: 36
Зарегистрирован: 10 май 2026, 23:58

Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

Сообщение nodice »

не понимаю этих плясок. дистиллы и dense 32B в Q4 дают сравнимое качество и влезают в одну 3090 целиком, без свопа и забитой под крышку оперативки. MoE на офлоаде это красивая цифра 110B в заголовке и куча компромиссов в реальной жизни
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
redisguru
Сообщения: 12
Зарегистрирован: 11 май 2026, 16:46

Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

Сообщение redisguru »

nodice писал(а):дистиллы и dense 32B в Q4 дают сравнимое качество
ну это просто неправда. гонял обе на своих задачах, Air разносит 32B на агрегации длинных доков и на код-ревью, разница не в проценты, а в категорию. 110B знаний никуда не деваются, даже если активных 12. где 32B начинает выдумывать несуществующие API, Air спокойно вспоминает сигнатуры. компромиссы офлоада есть, но качество там честное
👍1 ❤️ 🔥1 😄 🤔1
Аватара пользователя
softlurker
Сообщения: 23
Зарегистрирован: 16 май 2026, 13:16

Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

Сообщение softlurker »

кто хочет выжать еще, гляньте ik_llama.cpp, форк заточен под смешанный CPU+GPU инференс MoE, на моем 7950x дает +25-30% к генерации против ванильной. и -ot 'exps=CPU' руками иногда работает лучше чем --n-cpu-moe, можно часть экспертов оставить на карте, если VRAM позволяет
👍2 ❤️ 🔥2 😄 🤔
Аватара пользователя
juniorstack
Сообщения: 62
Зарегистрирован: 12 май 2026, 12:04

Re: GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри

Сообщение juniorstack »

@redisguru, самое смешное, что у нищесетапа главная статья расходов теперь не видеокарта. 2x32 DDR5 в начале 25го брал за 14к, сейчас в ситилинке те же плашки 29к. спасибо ИИ-буму, оперативка подорожала вдвое. так что 64 гига под MoE это уже не докинуть копейку, а вполне себе вложение
👍 ❤️3 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость