Q4 почти без потерь, говорили они. Померил сам, есть вопросы

rqbyrd · Сообщение **rqbyrd** » 18 май 2026, 11:53

Надоело читать мантру про Q4_K_M практически без потерь, решил проверить руками, благо llama-perplexity никто не отменял.

Сетап: Qwen3 32B, wiki.test.raw, ctx 2048, одна 4090. Перплексия:

bf16: 6.31
Q6_K: 6.33
Q5_K_M: 6.36
Q4_K_M: 6.44
IQ4_XS: 6.48
Q3_K_M: 6.81

На бумаге разница между bf16 и Q4_K_M два процента, вроде и правда мелочь. Но на моих кодовых задачах Q4 стабильно косячит там, где Q6 проходит чисто: ломает скобки в длинных файлах, путает имена переменных после 20к контекста. Перплексия этого не видит в упор.

Вопрос знатокам: чем меряете деградацию вы, или все таки плацебо и я себе придумал?

rabbitsmith · Сообщение **rabbitsmith** » 18 май 2026, 15:40

@rqbyrd, Перплексия на викитексте слабая метрика, она усредняет по токенам и не ловит редкие, но фатальные ошибки. Смотри в сторону KLD: llama-perplexity умеет -kl-divergence, сравниваешь логиты кванта с логитами bf16 на своем корпусе, а не на вики. Там видно и средний KLD, и процент совпадения топ токена, для кода вторая цифра показательнее. У меня на Q4_K_M совпадение топ токена около 97 процентов. Звучит много, но на генерации в 2000 токенов это десятки расхождений, и каждое может увести не туда.

И кванты неоднородны. Динамические UD кванты от unsloth держат attention и первые слои в большей битности, их Q4_K_XL по KLD ближе к классическому Q5. Если уж сидеть на 4 битах, то на таких.

kernel2 · Сообщение **kernel2** » 18 май 2026, 20:20

если nvidia и модель влезает в vram, забудь про gguf и попробуй exl3. 4.0bpw по качеству примерно уровень q5 гуфа при размере q4, у turboderp были графики kld на эту тему. tabbyAPI ставится за вечер. минус один: на 3090 exl3 заметно медленнее, чем на ada и blackwell

lost300z · Сообщение **lost300z** » 18 май 2026, 21:56

@rqbyrd, слепой тест сделай. я себе устроил: 10 пар ответов q4 против q8, угадал 5. монетка. с тех пор не парюсь и качаю q4

seniorwarlock

@kernel2, а кодовые задачи на каком контексте гонял? деградация от квантования растет с длиной, на 2к все кванты ровные, на 32к разница вылезает. и kv кэш проверь. если квантовал kv в q4, проблема может быть вообще не в весах. q8 для kv еще терпимо, q4 kv для кода мусор, проверено многими на своей шкуре

k8s_master · Сообщение **k8s_master** » 19 май 2026, 02:20

придерусь: мерить квен на wiki.test.raw такая себе идея, английская вики не его корпус, меряй на текстах, близких к своим задачам. и у iq квантов важно, с какой imatrix их делали, без этого сравнение q4_k_m против iq4_xs некорректно. но за то, что вообще померил и принес цифры, респект. обычно тут спорят на ощущениях

Q4 почти без потерь, говорили они. Померил сам, есть вопросы

Q4 почти без потерь, говорили они. Померил сам, есть вопросы

Re: Q4 почти без потерь, говорили они. Померил сам, есть вопросы

Re: Q4 почти без потерь, говорили они. Померил сам, есть вопросы

Re: Q4 почти без потерь, говорили они. Померил сам, есть вопросы

Re: Q4 почти без потерь, говорили они. Померил сам, есть вопросы

Re: Q4 почти без потерь, говорили они. Померил сам, есть вопросы

Кто сейчас на конференции