Гоняю Qwen2.5-32B на 3090. Влезает только Q4_K_M, Q5_K_M уже свопится в RAM и тормозит. Вопрос холиварный: кто реально видел деградацию на Q4_K_M в задачах кода/RAG, а не на синтетике с perplexity?
По цифрам из llama.cpp Q4_K_M даёт +0.2 ppl на 7B, Q5_K_M ближе к +0.04. Но ppl это средняя температура по больнице, на коде разница ловится в редких краевых случаях.
Тут нюанс: чем больше модель, тем меньше она страдает от квантизации. На 70B Q4 почти неотличим от fp16, а вот на 7B Q4 уже заметно тупит. У тебя 32B это зона где ещё спорно.
Народ, вы перплексию меряете на wikitext, а юзаете на русском коде с комментами на русском. Это вообще другой распределение. Ваши ppl-таблички тут мало о чём говорят.
anton_py +1. Я для своих задач собрала маленький калибровочный сет из реальных промптов и мерила KL-дивергенцию выходов относительно fp16. Вот это показательнее ppl.