Qwen3.5-30B-A3B вышел, обещают уровень старшей 235 на агентских задачах
Рейтинг: 70.1% · 9 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- weekendghost
- Сообщения: 10
- Зарегистрирован: 12 май 2026, 10:38
Qwen3.5-30B-A3B вышел, обещают уровень старшей 235 на агентских задачах
ночью алибаба выложила веса Qwen3.5-30B-A3B на хагинфейс, апач 2.0 как обычно. заявки серьезные: на swe-bench и tau-bench где-то рядом со старой 235B-A22B, при этом активных параметров 3 ярда, на cpu должно просто летать. контекст нативный 256к. gguf пока нет, анслот обещал dynamic кванты в течение суток. кто-нибудь уже щупал хотя бы через их чат?
✔ Лучший ответ сформирован автоматически — sleepyraccoon
go9 писал(а):иногда вставляет английские слова посреди фразы это не модель, это чат темплейт. в первых gguf сломан jinja, system prompt склеивается с первым сообщением и модель едет. в llama.cpp фикс уже смерджили, пересобери с master или жди релиз b6240. у меня после пересборки англицизмы пропали полностью
Re: Qwen3.5-30B-A3B вышел, обещают уровень старшей 235 на агентских задачах
бенчам алибабы верить это как верить продавцу на рынке. каждый их релиз уровень гпт, а через неделю выясняется что на ru-arena модель путает падежи и лупится в тул коллах. подожду пока нормальные люди прогонят на своих задачах
Re: Qwen3.5-30B-A3B вышел, обещают уровень старшей 235 на агентских задачах
@zachary, уже гоняю. анслот выкатил UD-Q4_K_XL утром, 18 гигов. на 4070 ti super с выгрузкой части экспертов через --n-cpu-moe 12 дает 31 t/s, чисто на одном 7950x без видяхи около 14. для A3B очень неплохо. по делу: код пишет заметно лучше старого 30B-A3B, по русскому пока один косяк, иногда вставляет английские слова посреди фразы
- sleepyraccoon
- Сообщения: 35
- Зарегистрирован: 13 май 2026, 11:17
Re: Qwen3.5-30B-A3B вышел, обещают уровень старшей 235 на агентских задачах
✔ Лучший ответ — сформирован автоматически
это не модель, это чат темплейт. в первых gguf сломан jinja, system prompt склеивается с первым сообщением и модель едет. в llama.cpp фикс уже смерджили, пересобери с master или жди релиз b6240. у меня после пересборки англицизмы пропали полностьюgo9 писал(а):иногда вставляет английские слова посреди фразы
- grumpylurker
- Сообщения: 63
- Зарегистрирован: 15 май 2026, 01:41
Re: Qwen3.5-30B-A3B вышел, обещают уровень старшей 235 на агентских задачах
квен красавцы по темпу конечно, но грустно что все опять побежали мерить код и агентов. кто-нибудь вообще проверяет художку и саммари на русском? для моих задач старая гемма 27 до сих пор лучше всех этих moe, и похоже это никому не интересно
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- DeepSeek выложил веса V4 под MIT: заявляют уровень фронтира при цене API в разы ниже. Кто уже щупал?
4 ответов · 6 просмотров
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя