Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

grigory_flux48 · Чт май 28, 2026 12:56 am

Гоняю Qwen2.5-32B на 3090. Влезает только Q4_K_M, Q5_K_M уже свопится в RAM и тормозит. Вопрос холиварный: кто реально видел деградацию на Q4_K_M в задачах кода/RAG, а не на синтетике с perplexity?

semyon_core · Чт май 28, 2026 1:10 am

По цифрам из llama.cpp Q4_K_M даёт +0.2 ppl на 7B, Q5_K_M ближе к +0.04. Но ppl это средняя температура по больнице, на коде разница ловится в редких краевых случаях.

filipp8696 · Чт май 28, 2026 2:10 am

У меня обратный опыт: на 32B Q4_K_M периодически путал имена функций при рефакторинге, на Q5_K_M ушло. Может совпадение, но я после этого Q5 не отдаю.

secflux9333 · Чт май 28, 2026 2:28 am

RustFan, а ты температуру фиксировал между прогонами? Без seed и temp=0 такие сравнения это гадание на кофейной гуще.

roman_git77 · Чт май 28, 2026 3:15 am

data_kate, temp 0, seed фиксированный, один и тот же промпт. Не на отвали сравнивал.

bytecloud6505 · Чт май 28, 2026 4:52 am

Тут нюанс: чем больше модель, тем меньше она страдает от квантизации. На 70B Q4 почти неотличим от fp16, а вот на 7B Q4 уже заметно тупит. У тебя 32B это зона где ещё спорно.

alex537 · Чт май 28, 2026 4:55 am

perf_freak, вот это и бесит. Хочется правило, а получается 'зависит'. Кто-нибудь imatrix-кванты пробовал? Говорят на тех же битах качество выше.

roman_sigma · Чт май 28, 2026 5:31 am

imatrix реально помогает на низких битах, Q3 с imatrix живее обычного Q3. На Q4_K_M разница уже в пределах шума, я бы не заморачивался.

alina_tech · Чт май 28, 2026 11:30 am

Народ, вы перплексию меряете на wikitext, а юзаете на русском коде с комментами на русском. Это вообще другой распределение. Ваши ppl-таблички тут мало о чём говорят.

bytecode4208 · Чт май 28, 2026 11:54 am

anton_py +1. Я для своих задач собрала маленький калибровочный сет из реальных промптов и мерила KL-дивергенцию выходов относительно fp16. Вот это показательнее ppl.

Cyberlake

Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Кто сейчас на конференции