Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

fedor8298 · Чт май 28, 2026 1:53 pm

а можно для тупых: KL-дивергенция это что в этом контексте

milana6182 · Чт май 28, 2026 4:41 pm

lurker42, грубо: насколько распределение вероятностей следующего токена у кванта отличается от полной модели. Чем меньше тем кант ближе к оригиналу на твоих данных.

ivan_omega30 · Чт май 28, 2026 5:09 pm

Двадцать лет в индустрии и вот сижу спорю про биты в нейросетке. Жизнь удалась. По делу: бери Q4_K_M, если влезает Q5 без свопа бери Q5, остальное оверинжиниринг.

kolya_flux · Чт май 28, 2026 6:04 pm

oldschool_coder, золотые слова. Своп в RAM убивает 5x скорости ради 0.1 ppl. Лучше Q4 целиком в VRAM чем Q5 с offload.

anna_ops79 · Чт май 28, 2026 6:05 pm

Окей, консенсус примерно: на 32B держим Q4_K_M в VRAM целиком, не свопимся, для критичных задач если есть бюджет VRAM берём Q5. imatrix щупаем на низких битах. Спасибо, тред полезный.

matvey5884 · Пт май 29, 2026 1:00 am

Всё ещё считаю что мой кейс с функциями реальный, но соглашусь что доказать без большой выборки не могу. Закрою глаза и буду жить с Q4 как все нормальные люди.

Cyberlake

Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Кто сейчас на конференции