Вечный спор. Одни говорят Q4_K_M неотличим от fp16, другие что на сложных задачах квант разваливается. Хочется услышать тех кто реально сравнивал на своих задачах, а не по бенчам с реддита.
Я гоняла Qwen2.5-Coder 14B на генерации SQL. Q8 и Q6 практически идентичны, Q4_K_M начинает иногда путать имена колонок на длинных схемах. На простых запросах разницы ноль.
Эмпирика такая: чем больше модель, тем безболезненнее квантизация. 70B в Q4 ощущается лучше чем 8B в Q8. Поэтому правило - бери максимально большую модель, которая влезает, даже в低 кванте.
Подтверждаю про размер. На 7-8B падение от Q4 уже заметно по связности на длинных рассуждениях. А вот imatrix-кванты (IQ4_XS и подобные) при том же размере заметно лучше старых Q4_0, многие про это забывают.
IQ-кванты чуть медленнее на CPU из-за более сложного декодирования, на GPU разница мизерная. По качеству на единицу размера imatrix почти всегда выигрывает. Я для всего что меньше 13B беру именно их.
Главный совет - не гонитесь за Q8 если можно влезть в более жирную модель в Q5. Q5_K_M это по сути sweet spot для большинства, качество отличное, размер вменяемый.