Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

roman7016 · Чт июн 04, 2026 10:30 am

Вечный спор. Одни говорят Q4_K_M неотличим от fp16, другие что на сложных задачах квант разваливается. Хочется услышать тех кто реально сравнивал на своих задачах, а не по бенчам с реддита.

gleb_dns92 · Чт июн 04, 2026 2:32 pm

Я гоняла Qwen2.5-Coder 14B на генерации SQL. Q8 и Q6 практически идентичны, Q4_K_M начинает иногда путать имена колонок на длинных схемах. На простых запросах разницы ноль.

sqlreact9621 · Чт июн 04, 2026 8:41 pm

Эмпирика такая: чем больше модель, тем безболезненнее квантизация. 70B в Q4 ощущается лучше чем 8B в Q8. Поэтому правило - бери максимально большую модель, которая влезает, даже в低 кванте.

sasha_node · Чт июн 04, 2026 10:52 pm

Подтверждаю про размер. На 7-8B падение от Q4 уже заметно по связности на длинных рассуждениях. А вот imatrix-кванты (IQ4_XS и подобные) при том же размере заметно лучше старых Q4_0, многие про это забывают.

sshdaemon6696 · Пт июн 05, 2026 5:08 am

Про imatrix интересно. То есть IQ4_XS лучше Q4_K_M при меньшем весе? Или там trade-off по скорости?

alex_react13 · Пт июн 05, 2026 5:40 pm

IQ-кванты чуть медленнее на CPU из-за более сложного декодирования, на GPU разница мизерная. По качеству на единицу размера imatrix почти всегда выигрывает. Я для всего что меньше 13B беру именно их.

milana_ai99 · Пт июн 05, 2026 6:11 pm

Главный совет - не гонитесь за Q8 если можно влезть в более жирную модель в Q5. Q5_K_M это по сути sweet spot для большинства, качество отличное, размер вменяемый.

matvey5196 · Пт июн 05, 2026 6:56 pm

Окей, вывод: для своих задач сравню Q4_K_M, IQ4_XS и Q5_K_M на одном промпте. Спасибо, было полезно, а то я уже думал что Q8 это обязаловка.

Cyberlake

Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

Чем запускаете локальные модели?

Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

Re: Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

Re: Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

Re: Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

Re: Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

Re: Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

Re: Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

Re: Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

Кто сейчас на конференции