Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

jpmore · Сообщение **jpmore** » 12 май 2026, 21:32

Заметил что кванты ниже Q5 заметно сильнее бьют по русскому чем по английскому, на том же промпте модель на англ держится в Q4_K_M нормально, а на русском начинает сыпать кальками, путать падежи и иногда вставлять английские слова посреди фразы. Тестил Qwen3.5-32B и Gemma 3 27B, обе в Q4_K_M против Q6_K. На англ разница почти незаметна, на русском Q4 это деградация которую видно невооруженным глазом. У кого так же и почему именно русский страдает сильнее?

middlewarlock

потому что русского в претрейне в разы меньше чем английского, и токены русского реже встречаются. при квантовании в первую очередь страдают редкие паттерны весов, а русский это как раз хвост распределения. так что да, низкие кванты бьют по неосновным языкам сильнее, это известная штука

rbacker · Сообщение **rbacker** » 13 май 2026, 03:32

токенизатор еще виноват. русский режется на 2-3 токена за слово против одного на англ, значит цепочка длиннее, ошибок накапливается больше, и квантовый шум по этой длинной цепочке сильнее размазывается

simmeon1 · Сообщение **simmeon1** » 13 май 2026, 04:35

@middlewarlock, у меня на Gemma 3 27B Q4_K_M русский вполне нормальный, никаких английских вставок. может у тебя imatrix кривой или вообще без него квантовали? без калибровочной матрицы Q4 реально разваливается, а с imatrix на русском корпусе совсем другая картина

nixos_andy · Сообщение **nixos_andy** » 13 май 2026, 04:58

simmeon1 писал(а):может у тебя imatrix кривой или вообще без него квантовали

вот это ключевое на самом деле. большинство готовых GGUF с обниморды квантуют с imatrix на английском wiki датасете. естественно русский проседает, его в калибровке почти не было. если самому переквантовать с imatrix собранным на смешанном корпусе с нормальной долей русского, Q4_K_M начинает держать русский почти как Q6. я так делал для Qwen, разница огромная. так что проблема не в Q4 как таковом а в том на чем считали важность весов

android_roman

@rbacker, imatrix собрать это отдельная боль, нужен llama-imatrix, репрезентативный текст на 50-100к токенов минимум, прогон на час. но результат того стоит если русский критичен

jownby · Сообщение **jownby** » 13 май 2026, 10:43

а можно просто не страдать и сидеть на Q6, 27B в Q6 влезает в 24 гига с контекстом 16к, зачем себя мучить Q4

jwil1440 · Сообщение **jwil1440** » 13 май 2026, 13:56

jownby писал(а):а можно просто не страдать и сидеть на Q6, 27B в Q6 влезает в 24 гига с контекстом 16к

с контекстом 16к впритык, а если человеку нужно 32-64к под рабочие задачи то Q6 уже не лезет и приходится либо на Q4 либо в офлоад. так что вопрос ОПа вполне жизненный, не у всех задача в 16к укладывается

Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

Кто сейчас на конференции