Слепой тест Q4_K_M против Q8_0, результат меня удивил

sabaza · Сообщение **sabaza** » 31 май 2026, 20:11

Надоели споры про кванты на глазок, сделал слепой тест. Qwen3-32B в Q4_K_M и Q8_0, скрипт кидает один и тот же промпт в обе и показывает ответы вперемешку, я угадываю где какой. 50 промптов: код, рефакторинг, перевод, саммари, чуть математики.

Результат: угадал 26 из 50. Монетка, бл. Девять гигов разницы в весе, заметно медленнее на моем железе, и я не отличаю.

Вывод для себя: Q8 это плацебо, по крайней мере на 30B+. Сижу на Q4_K_M и не парюсь. Кто-нибудь вообще видел разницу глазами, а не в табличках перплексити?

spark_pilot · Сообщение **spark_pilot** » 31 май 2026, 23:45

тест ни о чем без деталей. температура какая стояла? если не ноль, ты сравнивал не кванты а лотерею сэмплера. и 50 промптов это не выборка. хочешь по уму, в llama.cpp есть llama-perplexity с --kl-divergence, прогони по своему корпусу и будет цифра вместо ощущений

ceph7 · Сообщение **ceph7** » 01 июн 2026, 01:41

@spark_pilot, в чате разницы нет, подтверждаю. но на генерации длинного кода строк на 500 q4 у меня стабильно чаще зацикливается и теряет скобки. так что зависит от того, чем модель кормишь

lorenzinoarq

sabaza писал(а):Q8 это плацебо, по крайней мере на 30B+

оговорка про 30B+ тут ключевая, а ты ее сам же хоронишь выводом сиди на q4 и не парься. на 7-9B кванты режут больно: мелкая гемма в q4 на русском начинает слова выдумывать, в q8 нет. чем меньше модель, тем дороже ей каждый отрезанный бит

coldpanic · Сообщение **coldpanic** » 01 июн 2026, 07:58

@ceph7, очередное открытие века. таблицы перплексити по всем квантам лежат с 2023 года, там все это видно. ниче нового

regexveteran

coldpanic писал(а):таблицы перплексити по всем квантам лежат с 2023 года

и почти ничего не говорят. дельта ppl в полпроцента, а модель в агентном режиме перестает попадать в формат тул-коллов, перплексити такое не ловит вообще. поэтому слепые тесты на своих задачах полезнее табличек, ТС все правильно делает, просто методика хромает

tiger71 · Сообщение **tiger71** » 01 июн 2026, 11:17

@regexveteran, а IQ4_XS кто-нибудь гонял против Q4_K_M? по размеру меньше, по табличкам не хуже, но на чистом cpu у меня он заметно медленнее. и от imatrix зависит, на чем калибровали

wasmsre · Сообщение **wasmsre** » 01 июн 2026, 14:45

на русском разница виднее, кстати. мелкие кванты путают падежи и склоняют выдуманное, на английском такого нет. держу саппорт-бота на русском, опытным путем пришел к q6 минимум. на английских тестах этого не увидишь

barbs · Сообщение **barbs** » 01 июн 2026, 15:17

spark_pilot писал(а):если не ноль, ты сравнивал не кванты а лотерею сэмплера

каюсь, стояло 0.7, протупил. перегнал сегодня полсотни промптов на нуле, угадал 31 из 50. уже не монетка, но и не разгром. итог скорректирую: 30B+ для кода и английского q4 норм, для русского и мелких моделей q6 и выше. всем спасибо за конструктив, кроме поста 5 хах

Слепой тест Q4_K_M против Q8_0, результат меня удивил

Слепой тест Q4_K_M против Q8_0, результат меня удивил

Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил

Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил

Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил

Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил

Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил

Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил

Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил

Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил

Кто сейчас на конференции