Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma
Рейтинг: 43.6% · 6 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma
Заметил что кванты ниже Q5 заметно сильнее бьют по русскому чем по английскому, на том же промпте модель на англ держится в Q4_K_M нормально, а на русском начинает сыпать кальками, путать падежи и иногда вставлять английские слова посреди фразы. Тестил Qwen3.5-32B и Gemma 3 27B, обе в Q4_K_M против Q6_K. На англ разница почти незаметна, на русском Q4 это деградация которую видно невооруженным глазом. У кого так же и почему именно русский страдает сильнее?
✔ Лучший ответ сформирован автоматически — nixos_andy
simmeon1 писал(а):может у тебя imatrix кривой или вообще без него квантовали вот это ключевое на самом деле. большинство готовых GGUF с обниморды квантуют с imatrix на английском wiki датасете. естественно русский проседает, его в калибровке почти не было. если самому переквантовать с imatrix собранным на смешанном корпусе с нормальной долей русского, Q4_K_M начинает держать русский почти как Q6.…
- middlewarlock
- Сообщения: 43
- Зарегистрирован: 12 май 2026, 05:30
Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma
потому что русского в претрейне в разы меньше чем английского, и токены русского реже встречаются. при квантовании в первую очередь страдают редкие паттерны весов, а русский это как раз хвост распределения. так что да, низкие кванты бьют по неосновным языкам сильнее, это известная штука
Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma
токенизатор еще виноват. русский режется на 2-3 токена за слово против одного на англ, значит цепочка длиннее, ошибок накапливается больше, и квантовый шум по этой длинной цепочке сильнее размазывается
Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma
@middlewarlock, у меня на Gemma 3 27B Q4_K_M русский вполне нормальный, никаких английских вставок. может у тебя imatrix кривой или вообще без него квантовали? без калибровочной матрицы Q4 реально разваливается, а с imatrix на русском корпусе совсем другая картина
- nixos_andy
- Сообщения: 61
- Зарегистрирован: 11 май 2026, 03:44
Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma
✔ Лучший ответ — сформирован автоматически
вот это ключевое на самом деле. большинство готовых GGUF с обниморды квантуют с imatrix на английском wiki датасете. естественно русский проседает, его в калибровке почти не было. если самому переквантовать с imatrix собранным на смешанном корпусе с нормальной долей русского, Q4_K_M начинает держать русский почти как Q6. я так делал для Qwen, разница огромная. так что проблема не в Q4 как таковом а в том на чем считали важность весовsimmeon1 писал(а):может у тебя imatrix кривой или вообще без него квантовали
- android_roman
- Сообщения: 45
- Зарегистрирован: 11 май 2026, 05:31
Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma
с контекстом 16к впритык, а если человеку нужно 32-64к под рабочие задачи то Q6 уже не лезет и приходится либо на Q4 либо в офлоад. так что вопрос ОПа вполне жизненный, не у всех задача в 16к укладываетсяjownby писал(а):а можно просто не страдать и сидеть на Q6, 27B в Q6 влезает в 24 гига с контекстом 16к
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Bug bounty с российским паспортом в 2026 — HackerOne, Intigriti или уходить на локальные платформы?
8 ответов · 24 просмотров
-
- Б/у RTX 3090 за 55-60к под локальные нейронки в 2026 — авантюра или лучший вариант?
5 ответов · 9 просмотров
-
- Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно
6 ответов · 9 просмотров
-
- Сборка под локальные нейронки плюс иногда игры, бюджет 250к. Гляньте конфиг пока я не накосячил
7 ответов · 8 просмотров
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость