Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?

Kutz · Сообщение **Kutz** » 09 июн 2026, 16:37

Надоели вечные споры про кванты, сделал слепой тест. Gemma3-27B в Q4_K_M и Q6_K, 40 промптов: код, перевод, вопросы по тексту. Ответы вперемешку, угадывали где какой квант я и коллега, оба не первый год с локалками. Результат: я угадал 22 из 40, коллега 19 из 40. Монетка. Перплексия у этих квантов отличается на 0.04.

Вопрос: зачем народ таскает Q6/Q8, жертвует контекстом и скоростью, если разницу не видно даже когда специально ищешь?

jbosco · Сообщение **jbosco** » 09 июн 2026, 19:39

На чате не видно, согласен. А теперь возьми задачу, где модель должна выдать длинный диф без единой синтаксической ошибки, или агентский цикл с tool calling на 20 шагов. Там Q4 промахивается заметно чаще, у меня разница между Q4 и Q8 в проценте фейлов где-то 10 пунктов. Квант бьет не по среднему ответу, а по хвостам, где нужна точность.

RaspberryWhale

@Kutz, 40 промптов это не выборка, это анекдот. и угадывание человеком на глаз не метрика. нужны проверяемые ответы и хотя бы 500 прогонов на квант, иначе ты померил собственную самоуверенность

infern · Сообщение **infern** » 10 июн 2026, 02:13

@jbosco, Для русского разница есть и заметная. imatrix у большинства квантовальщиков калибруется на английском корпусе, редкие русские токены страдают первыми. На Q4 модель начинает криво склонять и вставлять англицизмы, на Q6 почти чисто. Правда чем жирнее модель, тем меньше эффект: на 27B еще терпимо, на 8B беда, а 70B и в Q3 живее всех живых.

asynclover · Сообщение **asynclover** » 10 июн 2026, 06:21

@jbosco, +1 к ОПу. год на Q4_K_M, в ус не дую, диск не резиновый

svelteandy · Сообщение **svelteandy** » 10 июн 2026, 10:00

душная поправка: перплексия вообще плохой инструмент для сравнения квантов, она усредняет. Смотри KL divergence, llama-perplexity умеет -kl-divergence. Там между Q4 и Q6 разница уже не копеечная, у распределения едет хвост. Что как раз объясняет пост выше про фейлы в коде: в среднем то же самое, на редких токенах хуже.

Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?

Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?

Re: Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?

Re: Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?

Re: Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?

Re: Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?

Re: Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?

Кто сейчас на конференции