Q4 почти без потерь, говорили они. Померил сам, есть вопросы
Рейтинг: 0% · 0 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Q4 почти без потерь, говорили они. Померил сам, есть вопросы
Надоело читать мантру про Q4_K_M практически без потерь, решил проверить руками, благо llama-perplexity никто не отменял.
Сетап: Qwen3 32B, wiki.test.raw, ctx 2048, одна 4090. Перплексия:
bf16: 6.31
Q6_K: 6.33
Q5_K_M: 6.36
Q4_K_M: 6.44
IQ4_XS: 6.48
Q3_K_M: 6.81
На бумаге разница между bf16 и Q4_K_M два процента, вроде и правда мелочь. Но на моих кодовых задачах Q4 стабильно косячит там, где Q6 проходит чисто: ломает скобки в длинных файлах, путает имена переменных после 20к контекста. Перплексия этого не видит в упор.
Вопрос знатокам: чем меряете деградацию вы, или все таки плацебо и я себе придумал?
Сетап: Qwen3 32B, wiki.test.raw, ctx 2048, одна 4090. Перплексия:
bf16: 6.31
Q6_K: 6.33
Q5_K_M: 6.36
Q4_K_M: 6.44
IQ4_XS: 6.48
Q3_K_M: 6.81
На бумаге разница между bf16 и Q4_K_M два процента, вроде и правда мелочь. Но на моих кодовых задачах Q4 стабильно косячит там, где Q6 проходит чисто: ломает скобки в длинных файлах, путает имена переменных после 20к контекста. Перплексия этого не видит в упор.
Вопрос знатокам: чем меряете деградацию вы, или все таки плацебо и я себе придумал?
✔ Лучший ответ сформирован автоматически — rabbitsmith
@rqbyrd, Перплексия на викитексте слабая метрика, она усредняет по токенам и не ловит редкие, но фатальные ошибки. Смотри в сторону KLD: llama-perplexity умеет -kl-divergence, сравниваешь логиты кванта с логитами bf16 на своем корпусе, а не на вики. Там видно и средний KLD, и процент совпадения топ токена, для кода вторая цифра показательнее. У меня на Q4_K_M совпадение топ токена около 97 процен…
- rabbitsmith
- Сообщения: 7
- Зарегистрирован: 17 май 2026, 00:39
Re: Q4 почти без потерь, говорили они. Померил сам, есть вопросы
✔ Лучший ответ — сформирован автоматически
@rqbyrd, Перплексия на викитексте слабая метрика, она усредняет по токенам и не ловит редкие, но фатальные ошибки. Смотри в сторону KLD: llama-perplexity умеет -kl-divergence, сравниваешь логиты кванта с логитами bf16 на своем корпусе, а не на вики. Там видно и средний KLD, и процент совпадения топ токена, для кода вторая цифра показательнее. У меня на Q4_K_M совпадение топ токена около 97 процентов. Звучит много, но на генерации в 2000 токенов это десятки расхождений, и каждое может увести не туда.
И кванты неоднородны. Динамические UD кванты от unsloth держат attention и первые слои в большей битности, их Q4_K_XL по KLD ближе к классическому Q5. Если уж сидеть на 4 битах, то на таких.
И кванты неоднородны. Динамические UD кванты от unsloth держат attention и первые слои в большей битности, их Q4_K_XL по KLD ближе к классическому Q5. Если уж сидеть на 4 битах, то на таких.
Re: Q4 почти без потерь, говорили они. Померил сам, есть вопросы
если nvidia и модель влезает в vram, забудь про gguf и попробуй exl3. 4.0bpw по качеству примерно уровень q5 гуфа при размере q4, у turboderp были графики kld на эту тему. tabbyAPI ставится за вечер. минус один: на 3090 exl3 заметно медленнее, чем на ada и blackwell
- seniorwarlock
- Сообщения: 57
- Зарегистрирован: 12 май 2026, 00:23
Re: Q4 почти без потерь, говорили они. Померил сам, есть вопросы
@kernel2, а кодовые задачи на каком контексте гонял? деградация от квантования растет с длиной, на 2к все кванты ровные, на 32к разница вылезает. и kv кэш проверь. если квантовал kv в q4, проблема может быть вообще не в весах. q8 для kv еще терпимо, q4 kv для кода мусор, проверено многими на своей шкуре
- k8s_master
- Сообщения: 44
- Зарегистрирован: 11 май 2026, 19:55
Re: Q4 почти без потерь, говорили они. Померил сам, есть вопросы
придерусь: мерить квен на wiki.test.raw такая себе идея, английская вики не его корпус, меряй на текстах, близких к своим задачам. и у iq квантов важно, с какой imatrix их делали, без этого сравнение q4_k_m против iq4_xs некорректно. но за то, что вообще померил и принес цифры, респект. обычно тут спорят на ощущениях
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Redis vs Valkey в 2026 — пора ли переходить на форк, или Redis 8 закрыл все вопросы?
5 ответов · 7 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость