Q4 почти без потерь, говорили они. Померил сам, есть вопросы

Рейтинг: 0% · 0 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
rqbyrd
Сообщения: 12
Зарегистрирован: 22 май 2026, 09:51

Q4 почти без потерь, говорили они. Померил сам, есть вопросы

Сообщение rqbyrd »

Надоело читать мантру про Q4_K_M практически без потерь, решил проверить руками, благо llama-perplexity никто не отменял.

Сетап: Qwen3 32B, wiki.test.raw, ctx 2048, одна 4090. Перплексия:

bf16: 6.31
Q6_K: 6.33
Q5_K_M: 6.36
Q4_K_M: 6.44
IQ4_XS: 6.48
Q3_K_M: 6.81

На бумаге разница между bf16 и Q4_K_M два процента, вроде и правда мелочь. Но на моих кодовых задачах Q4 стабильно косячит там, где Q6 проходит чисто: ломает скобки в длинных файлах, путает имена переменных после 20к контекста. Перплексия этого не видит в упор.

Вопрос знатокам: чем меряете деградацию вы, или все таки плацебо и я себе придумал?
👍1 ❤️2 🔥1 😄 🤔1
✔ Лучший ответ сформирован автоматически — rabbitsmith
@rqbyrd, Перплексия на викитексте слабая метрика, она усредняет по токенам и не ловит редкие, но фатальные ошибки. Смотри в сторону KLD: llama-perplexity умеет -kl-divergence, сравниваешь логиты кванта с логитами bf16 на своем корпусе, а не на вики. Там видно и средний KLD, и процент совпадения топ токена, для кода вторая цифра показательнее. У меня на Q4_K_M совпадение топ токена около 97 процен…
Перейти к ответу →
Аватара пользователя
rabbitsmith
Сообщения: 7
Зарегистрирован: 17 май 2026, 00:39

Re: Q4 почти без потерь, говорили они. Померил сам, есть вопросы

Сообщение rabbitsmith »

✔ Лучший ответ — сформирован автоматически
@rqbyrd, Перплексия на викитексте слабая метрика, она усредняет по токенам и не ловит редкие, но фатальные ошибки. Смотри в сторону KLD: llama-perplexity умеет -kl-divergence, сравниваешь логиты кванта с логитами bf16 на своем корпусе, а не на вики. Там видно и средний KLD, и процент совпадения топ токена, для кода вторая цифра показательнее. У меня на Q4_K_M совпадение топ токена около 97 процентов. Звучит много, но на генерации в 2000 токенов это десятки расхождений, и каждое может увести не туда.

И кванты неоднородны. Динамические UD кванты от unsloth держат attention и первые слои в большей битности, их Q4_K_XL по KLD ближе к классическому Q5. Если уж сидеть на 4 битах, то на таких.
👍1 ❤️ 🔥1 😄1 🤔
Аватара пользователя
kernel2
Сообщения: 30
Зарегистрирован: 20 май 2026, 10:58

Re: Q4 почти без потерь, говорили они. Померил сам, есть вопросы

Сообщение kernel2 »

если nvidia и модель влезает в vram, забудь про gguf и попробуй exl3. 4.0bpw по качеству примерно уровень q5 гуфа при размере q4, у turboderp были графики kld на эту тему. tabbyAPI ставится за вечер. минус один: на 3090 exl3 заметно медленнее, чем на ada и blackwell
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
lost300z
Сообщения: 77
Зарегистрирован: 11 май 2026, 04:27

Re: Q4 почти без потерь, говорили они. Померил сам, есть вопросы

Сообщение lost300z »

@rqbyrd, слепой тест сделай. я себе устроил: 10 пар ответов q4 против q8, угадал 5. монетка. с тех пор не парюсь и качаю q4
👍1 ❤️ 🔥1 😄 🤔1
Аватара пользователя
seniorwarlock
Сообщения: 57
Зарегистрирован: 12 май 2026, 00:23

Re: Q4 почти без потерь, говорили они. Померил сам, есть вопросы

Сообщение seniorwarlock »

@kernel2, а кодовые задачи на каком контексте гонял? деградация от квантования растет с длиной, на 2к все кванты ровные, на 32к разница вылезает. и kv кэш проверь. если квантовал kv в q4, проблема может быть вообще не в весах. q8 для kv еще терпимо, q4 kv для кода мусор, проверено многими на своей шкуре
👍1 ❤️1 🔥2 😄 🤔
Аватара пользователя
k8s_master
Сообщения: 44
Зарегистрирован: 11 май 2026, 19:55

Re: Q4 почти без потерь, говорили они. Померил сам, есть вопросы

Сообщение k8s_master »

придерусь: мерить квен на wiki.test.raw такая себе идея, английская вики не его корпус, меряй на текстах, близких к своим задачам. и у iq квантов важно, с какой imatrix их делали, без этого сравнение q4_k_m против iq4_xs некорректно. но за то, что вообще померил и принес цифры, респект. обычно тут спорят на ощущениях
👍3 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость