Слепой тест Q4_K_M против Q8_0, результат меня удивил
Рейтинг: 40.9% · 8 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Слепой тест Q4_K_M против Q8_0, результат меня удивил
Надоели споры про кванты на глазок, сделал слепой тест. Qwen3-32B в Q4_K_M и Q8_0, скрипт кидает один и тот же промпт в обе и показывает ответы вперемешку, я угадываю где какой. 50 промптов: код, рефакторинг, перевод, саммари, чуть математики.
Результат: угадал 26 из 50. Монетка, бл. Девять гигов разницы в весе, заметно медленнее на моем железе, и я не отличаю.
Вывод для себя: Q8 это плацебо, по крайней мере на 30B+. Сижу на Q4_K_M и не парюсь. Кто-нибудь вообще видел разницу глазами, а не в табличках перплексити?
Результат: угадал 26 из 50. Монетка, бл. Девять гигов разницы в весе, заметно медленнее на моем железе, и я не отличаю.
Вывод для себя: Q8 это плацебо, по крайней мере на 30B+. Сижу на Q4_K_M и не парюсь. Кто-нибудь вообще видел разницу глазами, а не в табличках перплексити?
✔ Лучший ответ сформирован автоматически — barbs
spark_pilot писал(а):если не ноль, ты сравнивал не кванты а лотерею сэмплера каюсь, стояло 0.7, протупил. перегнал сегодня полсотни промптов на нуле, угадал 31 из 50. уже не монетка, но и не разгром. итог скорректирую: 30B+ для кода и английского q4 норм, для русского и мелких моделей q6 и выше. всем спасибо за конструктив, кроме поста 5 хах
- spark_pilot
- Сообщения: 16
- Зарегистрирован: 15 май 2026, 05:44
Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил
тест ни о чем без деталей. температура какая стояла? если не ноль, ты сравнивал не кванты а лотерею сэмплера. и 50 промптов это не выборка. хочешь по уму, в llama.cpp есть llama-perplexity с --kl-divergence, прогони по своему корпусу и будет цифра вместо ощущений
Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил
@spark_pilot, в чате разницы нет, подтверждаю. но на генерации длинного кода строк на 500 q4 у меня стабильно чаще зацикливается и теряет скобки. так что зависит от того, чем модель кормишь
- lorenzinoarq
- Сообщения: 65
- Зарегистрирован: 11 май 2026, 00:03
Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил
оговорка про 30B+ тут ключевая, а ты ее сам же хоронишь выводом сиди на q4 и не парься. на 7-9B кванты режут больно: мелкая гемма в q4 на русском начинает слова выдумывать, в q8 нет. чем меньше модель, тем дороже ей каждый отрезанный битsabaza писал(а):Q8 это плацебо, по крайней мере на 30B+
- regexveteran
- Сообщения: 34
- Зарегистрирован: 12 май 2026, 03:09
Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил
и почти ничего не говорят. дельта ppl в полпроцента, а модель в агентном режиме перестает попадать в формат тул-коллов, перплексити такое не ловит вообще. поэтому слепые тесты на своих задачах полезнее табличек, ТС все правильно делает, просто методика хромаетcoldpanic писал(а):таблицы перплексити по всем квантам лежат с 2023 года
Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил
@regexveteran, а IQ4_XS кто-нибудь гонял против Q4_K_M? по размеру меньше, по табличкам не хуже, но на чистом cpu у меня он заметно медленнее. и от imatrix зависит, на чем калибровали
Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил
✔ Лучший ответ — сформирован автоматически
каюсь, стояло 0.7, протупил. перегнал сегодня полсотни промптов на нуле, угадал 31 из 50. уже не монетка, но и не разгром. итог скорректирую: 30B+ для кода и английского q4 норм, для русского и мелких моделей q6 и выше. всем спасибо за конструктив, кроме поста 5 хахspark_pilot писал(а):если не ноль, ты сравнивал не кванты а лотерею сэмплера
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
- Воздух против AIO в 2026: есть ли вообще смысл в водянке для домашнего ПК?
11 ответов · 492 просмотров
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость