Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

Рейтинг: 43.6% · 6 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
jpmore
Сообщения: 13
Зарегистрирован: 12 май 2026, 23:46

Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

Сообщение jpmore »

Заметил что кванты ниже Q5 заметно сильнее бьют по русскому чем по английскому, на том же промпте модель на англ держится в Q4_K_M нормально, а на русском начинает сыпать кальками, путать падежи и иногда вставлять английские слова посреди фразы. Тестил Qwen3.5-32B и Gemma 3 27B, обе в Q4_K_M против Q6_K. На англ разница почти незаметна, на русском Q4 это деградация которую видно невооруженным глазом. У кого так же и почему именно русский страдает сильнее?
👍1 ❤️2 🔥2 😄 🤔
✔ Лучший ответ сформирован автоматически — nixos_andy
simmeon1 писал(а):может у тебя imatrix кривой или вообще без него квантовали вот это ключевое на самом деле. большинство готовых GGUF с обниморды квантуют с imatrix на английском wiki датасете. естественно русский проседает, его в калибровке почти не было. если самому переквантовать с imatrix собранным на смешанном корпусе с нормальной долей русского, Q4_K_M начинает держать русский почти как Q6.…
Перейти к ответу →
Аватара пользователя
middlewarlock
Сообщения: 43
Зарегистрирован: 12 май 2026, 05:30

Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

Сообщение middlewarlock »

потому что русского в претрейне в разы меньше чем английского, и токены русского реже встречаются. при квантовании в первую очередь страдают редкие паттерны весов, а русский это как раз хвост распределения. так что да, низкие кванты бьют по неосновным языкам сильнее, это известная штука
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
rbacker
Сообщения: 28
Зарегистрирован: 11 май 2026, 19:56

Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

Сообщение rbacker »

токенизатор еще виноват. русский режется на 2-3 токена за слово против одного на англ, значит цепочка длиннее, ошибок накапливается больше, и квантовый шум по этой длинной цепочке сильнее размазывается
👍 ❤️ 🔥 😄 🤔1
Аватара пользователя
simmeon1
Сообщения: 18
Зарегистрирован: 11 май 2026, 08:45

Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

Сообщение simmeon1 »

@middlewarlock, у меня на Gemma 3 27B Q4_K_M русский вполне нормальный, никаких английских вставок. может у тебя imatrix кривой или вообще без него квантовали? без калибровочной матрицы Q4 реально разваливается, а с imatrix на русском корпусе совсем другая картина
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
nixos_andy
Сообщения: 61
Зарегистрирован: 11 май 2026, 03:44

Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

Сообщение nixos_andy »

✔ Лучший ответ — сформирован автоматически
simmeon1 писал(а):может у тебя imatrix кривой или вообще без него квантовали
вот это ключевое на самом деле. большинство готовых GGUF с обниморды квантуют с imatrix на английском wiki датасете. естественно русский проседает, его в калибровке почти не было. если самому переквантовать с imatrix собранным на смешанном корпусе с нормальной долей русского, Q4_K_M начинает держать русский почти как Q6. я так делал для Qwen, разница огромная. так что проблема не в Q4 как таковом а в том на чем считали важность весов
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
android_roman
Сообщения: 45
Зарегистрирован: 11 май 2026, 05:31

Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

Сообщение android_roman »

@rbacker, imatrix собрать это отдельная боль, нужен llama-imatrix, репрезентативный текст на 50-100к токенов минимум, прогон на час. но результат того стоит если русский критичен
👍 ❤️1 🔥 😄1 🤔
Аватара пользователя
jownby
Сообщения: 23
Зарегистрирован: 21 май 2026, 03:42

Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

Сообщение jownby »

а можно просто не страдать и сидеть на Q6, 27B в Q6 влезает в 24 гига с контекстом 16к, зачем себя мучить Q4
👍 ❤️ 🔥2 😄 🤔
Аватара пользователя
jwil1440
Сообщения: 51
Зарегистрирован: 11 май 2026, 05:07

Re: Почему локальные модели на русском хуже после квантования чем на английском, проверил на Qwen и Gemma

Сообщение jwil1440 »

jownby писал(а):а можно просто не страдать и сидеть на Q6, 27B в Q6 влезает в 24 гига с контекстом 16к
с контекстом 16к впритык, а если человеку нужно 32-64к под рабочие задачи то Q6 уже не лезет и приходится либо на Q4 либо в офлоад. так что вопрос ОПа вполне жизненный, не у всех задача в 16к укладывается
👍1 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость