Вышли веса Qwen3.5-35B-A4B, первые впечатления от квантов
Рейтинг: 56.5% · 9 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- spark_main
- Сообщения: 65
- Зарегистрирован: 12 май 2026, 07:40
Вышли веса Qwen3.5-35B-A4B, первые впечатления от квантов
Сегодня ночью алибаба выложила веса Qwen3.5-35B-A4B. MoE, 35B всего, 4B активных. Заявляют уровень плотной 32B при скорости 8B. GGUF от unsloth уже лежат, но первая партия была с битым chat template, если качали утром, перекачайте. В llama.cpp поддержка только со вчерашнего билда, обновляйтесь, иначе ловите unknown architecture.
Мои цифры на 3090: Q4_K_XL влезает целиком, 62 t/s генерации. Русский заметно чище тройки, меньше китаизмов в длинных текстах. По коду пока не понял, на моих задачах примерно как Qwen3-32B.
Кто еще гонял? Интересует длинный контекст, заявлено 256к, но верится с трудом.
Мои цифры на 3090: Q4_K_XL влезает целиком, 62 t/s генерации. Русский заметно чище тройки, меньше китаизмов в длинных текстах. По коду пока не понял, на моих задачах примерно как Qwen3-32B.
Кто еще гонял? Интересует длинный контекст, заявлено 256к, но верится с трудом.
✔ Лучший ответ сформирован автоматически — ama123
@grafit_v так это же MoE, тут другая математика. Эксперты выгружаешь в RAM через -n-cpu-moe, на карте остается общий костяк и кэш. У меня на 3060 + 64gb ddr5 крутится Q4 на 18 t/s, активных параметров то всего 4B. Это и есть главный плюс таких моделей для бомж-сборок, не надо ничего в iq3 ужимать.
Re: Вышли веса Qwen3.5-35B-A4B, первые впечатления от квантов
Заявляют уровень плотной 32B, ага. Каждый релиз заявляют уровень модели в два раза больше, а по факту на третьем сообщении диалога все сыпется. Бенчмарки давно меряют умение тренироваться на бенчмарках, а не ум. Подожду пару недель реальных отзывов, потом качну.
- seniorwarlock
- Сообщения: 57
- Зарегистрирован: 12 май 2026, 00:23
Re: Вышли веса Qwen3.5-35B-A4B, первые впечатления от квантов
@spark_main, а на 3060 12gb что светит? iq3 наверное совсем лоботомит будет
Re: Вышли веса Qwen3.5-35B-A4B, первые впечатления от квантов
✔ Лучший ответ — сформирован автоматически
@grafit_v так это же MoE, тут другая математика. Эксперты выгружаешь в RAM через -n-cpu-moe, на карте остается общий костяк и кэш. У меня на 3060 + 64gb ddr5 крутится Q4 на 18 t/s, активных параметров то всего 4B. Это и есть главный плюс таких моделей для бомж-сборок, не надо ничего в iq3 ужимать.
- terraform_ops
- Сообщения: 15
- Зарегистрирован: 16 май 2026, 23:41
Re: Вышли веса Qwen3.5-35B-A4B, первые впечатления от квантов
@maddogdmx, ванильный квен как всегда зажат, на любой острый вопрос уходит в нравоучения. ждем abliterated и тюны, тогда и поговорим
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Постквантовая крипта: кто уже включил ML-KEM в проде или ещё рано суетиться?
5 ответов · 8 просмотров
-
- Взял отпуск две недели впервые за три года. Три дня спал, потом сел пилить пет-проект. Я сломан?
4 ответов · 8 просмотров
-
- Постквантовый TLS приехал в прод: X25519MLKEM768 включился сам — у кого что сломалось?
5 ответов · 7 просмотров
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость