Вышли веса Qwen3.5-35B-A4B, первые впечатления от квантов

Рейтинг: 56.5% · 9 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
spark_main
Сообщения: 65
Зарегистрирован: 12 май 2026, 07:40

Вышли веса Qwen3.5-35B-A4B, первые впечатления от квантов

Сообщение spark_main »

Сегодня ночью алибаба выложила веса Qwen3.5-35B-A4B. MoE, 35B всего, 4B активных. Заявляют уровень плотной 32B при скорости 8B. GGUF от unsloth уже лежат, но первая партия была с битым chat template, если качали утром, перекачайте. В llama.cpp поддержка только со вчерашнего билда, обновляйтесь, иначе ловите unknown architecture.

Мои цифры на 3090: Q4_K_XL влезает целиком, 62 t/s генерации. Русский заметно чище тройки, меньше китаизмов в длинных текстах. По коду пока не понял, на моих задачах примерно как Qwen3-32B.

Кто еще гонял? Интересует длинный контекст, заявлено 256к, но верится с трудом.
👍1 ❤️1 🔥2 😄 🤔
✔ Лучший ответ сформирован автоматически — ama123
@grafit_v так это же MoE, тут другая математика. Эксперты выгружаешь в RAM через -n-cpu-moe, на карте остается общий костяк и кэш. У меня на 3060 + 64gb ddr5 крутится Q4 на 18 t/s, активных параметров то всего 4B. Это и есть главный плюс таких моделей для бомж-сборок, не надо ничего в iq3 ужимать.
Перейти к ответу →
Аватара пользователя
maddogdmx
Сообщения: 14
Зарегистрирован: 14 май 2026, 12:03

Re: Вышли веса Qwen3.5-35B-A4B, первые впечатления от квантов

Сообщение maddogdmx »

62 t/s после плотной 32b звучит как сказка. качаю
👍2 ❤️1 🔥 😄1 🤔
Аватара пользователя
denoops
Сообщения: 17
Зарегистрирован: 28 май 2026, 22:30

Re: Вышли веса Qwen3.5-35B-A4B, первые впечатления от квантов

Сообщение denoops »

Заявляют уровень плотной 32B, ага. Каждый релиз заявляют уровень модели в два раза больше, а по факту на третьем сообщении диалога все сыпется. Бенчмарки давно меряют умение тренироваться на бенчмарках, а не ум. Подожду пару недель реальных отзывов, потом качну.
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
seniorwarlock
Сообщения: 57
Зарегистрирован: 12 май 2026, 00:23

Re: Вышли веса Qwen3.5-35B-A4B, первые впечатления от квантов

Сообщение seniorwarlock »

@spark_main, а на 3060 12gb что светит? iq3 наверное совсем лоботомит будет
👍3 ❤️ 🔥1 😄 🤔
Аватара пользователя
ama123
Сообщения: 19
Зарегистрирован: 11 май 2026, 09:03

Re: Вышли веса Qwen3.5-35B-A4B, первые впечатления от квантов

Сообщение ama123 »

✔ Лучший ответ — сформирован автоматически
@grafit_v так это же MoE, тут другая математика. Эксперты выгружаешь в RAM через -n-cpu-moe, на карте остается общий костяк и кэш. У меня на 3060 + 64gb ddr5 крутится Q4 на 18 t/s, активных параметров то всего 4B. Это и есть главный плюс таких моделей для бомж-сборок, не надо ничего в iq3 ужимать.
👍 ❤️ 🔥 😄1 🤔1
Аватара пользователя
omnicrom
Сообщения: 32
Зарегистрирован: 11 май 2026, 07:08

Re: Вышли веса Qwen3.5-35B-A4B, первые впечатления от квантов

Сообщение omnicrom »

прогнал свою проверку на длинном контексте, поиск фактов по выгрузке из конфлюенса. до 32к держится отлично, на 48к начала путать даты документов, дальше не мучал. для 35B все равно очень прилично, у тройки на 24к уже плыло
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
terraform_ops
Сообщения: 15
Зарегистрирован: 16 май 2026, 23:41

Re: Вышли веса Qwen3.5-35B-A4B, первые впечатления от квантов

Сообщение terraform_ops »

@maddogdmx, ванильный квен как всегда зажат, на любой острый вопрос уходит в нравоучения. ждем abliterated и тюны, тогда и поговорим
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость