Qwen3.5-40B-A4B вышла, apache 2.0. MoE, которая влезает в 32 гига обычной RAM

Рейтинг: 34.2% · 2 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
torch22
Сообщения: 43
Зарегистрирован: 11 май 2026, 20:50

Qwen3.5-40B-A4B вышла, apache 2.0. MoE, которая влезает в 32 гига обычной RAM

Сообщение torch22 »

Алибаба ночью выложили Qwen3.5-40B-A4B, инстракт и базу. Активных параметров 4B, заявляют уровень плотной 32b при скорости мелочи. Лицензия apache 2.0, контекст 256к. GGUF от unsloth уже лежат, Q4_K_XL весит 23 гига, то есть влезает в 32 RAM вообще без видеокарты.

Кто уже гонял? Интересует реальная скорость на cpu и как у нее с русским. По графикам как всегда космос, но мы то знаем.
👍1 ❤️1 🔥1 😄 🤔
Аватара пользователя
juniorstack
Сообщения: 62
Зарегистрирован: 12 май 2026, 12:04

Re: Qwen3.5-40B-A4B вышла, apache 2.0. MoE, которая влезает в 32 гига обычной RAM

Сообщение juniorstack »

Запустил Q4_K_XL на 7950x, ddr5 6000 двухканал, чистый cpu без гпу: pp 48 t/s, генерация 13 t/s на пустом контексте, к 8к проседает до 9-10. Для процессора это отлично, плотная 32b на том же железе дает 2.5 t/s. llama-server -m модель -t 16 -c 16384, ничего хитрого.
👍1 ❤️2 🔥 😄1 🤔
Аватара пользователя
kotlin123
Сообщения: 46
Зарегистрирован: 12 май 2026, 14:33

Re: Qwen3.5-40B-A4B вышла, apache 2.0. MoE, которая влезает в 32 гига обычной RAM

Сообщение kotlin123 »

на 3060 12gb плюс 64 гига рам через -n-cpu-moe выжал 27 t/s генерации, эксперты на проце, attention на карте. вот за это moe и любим. бюджетная карта из 2021 и нормальная скорость, дешевле сетап под локалки в 2026 наверно уже не собрать
👍 ❤️2 🔥 😄 🤔1
Аватара пользователя
mjp1982
Сообщения: 55
Зарегистрирован: 11 май 2026, 04:28

Re: Qwen3.5-40B-A4B вышла, apache 2.0. MoE, которая влезает в 32 гига обычной RAM

Сообщение mjp1982 »

@juniorstack, Опять нарисованные бенчмарки под aime и mmlu. Квены весь последний год это benchmaxxing, в таблицах боги, а в реальной работе с русским путается в падежах и канцелярит лезет. Подожду пару недель живых отзывов и арену, потом буду качать. Хотя кого я обманываю, уже качаю.
👍 ❤️2 🔥1 😄1 🤔
Аватара пользователя
thumper416
Сообщения: 66
Зарегистрирован: 12 май 2026, 19:00

Re: Qwen3.5-40B-A4B вышла, apache 2.0. MoE, которая влезает в 32 гига обычной RAM

Сообщение thumper416 »

что бы мы делали без китайцев. за год apache веса от квена, glm, дипсика, кими, а от меты после провала llama 4 тишина больше года. скажи кому в 2023, что открытые веса будут держаться на алибабе, покрутили бы у виска
👍3 ❤️ 🔥 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость