Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?
Рейтинг: 56.6% · 5 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?
Надоели вечные споры про кванты, сделал слепой тест. Gemma3-27B в Q4_K_M и Q6_K, 40 промптов: код, перевод, вопросы по тексту. Ответы вперемешку, угадывали где какой квант я и коллега, оба не первый год с локалками. Результат: я угадал 22 из 40, коллега 19 из 40. Монетка. Перплексия у этих квантов отличается на 0.04.
Вопрос: зачем народ таскает Q6/Q8, жертвует контекстом и скоростью, если разницу не видно даже когда специально ищешь?
Вопрос: зачем народ таскает Q6/Q8, жертвует контекстом и скоростью, если разницу не видно даже когда специально ищешь?
✔ Лучший ответ сформирован автоматически — infern
@jbosco, Для русского разница есть и заметная. imatrix у большинства квантовальщиков калибруется на английском корпусе, редкие русские токены страдают первыми. На Q4 модель начинает криво склонять и вставлять англицизмы, на Q6 почти чисто. Правда чем жирнее модель, тем меньше эффект: на 27B еще терпимо, на 8B беда, а 70B и в Q3 живее всех живых.
Re: Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?
На чате не видно, согласен. А теперь возьми задачу, где модель должна выдать длинный диф без единой синтаксической ошибки, или агентский цикл с tool calling на 20 шагов. Там Q4 промахивается заметно чаще, у меня разница между Q4 и Q8 в проценте фейлов где-то 10 пунктов. Квант бьет не по среднему ответу, а по хвостам, где нужна точность.
- RaspberryWhale
- Сообщения: 17
- Зарегистрирован: 11 май 2026, 16:44
Re: Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?
✔ Лучший ответ — сформирован автоматически
@jbosco, Для русского разница есть и заметная. imatrix у большинства квантовальщиков калибруется на английском корпусе, редкие русские токены страдают первыми. На Q4 модель начинает криво склонять и вставлять англицизмы, на Q6 почти чисто. Правда чем жирнее модель, тем меньше эффект: на 27B еще терпимо, на 8B беда, а 70B и в Q3 живее всех живых.
- asynclover
- Сообщения: 70
- Зарегистрирован: 13 май 2026, 04:35
- svelteandy
- Сообщения: 24
- Зарегистрирован: 16 май 2026, 03:53
Re: Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?
душная поправка: перплексия вообще плохой инструмент для сравнения квантов, она усредняет. Смотри KL divergence, llama-perplexity умеет -kl-divergence. Там между Q4 и Q6 разница уже не копеечная, у распределения едет хвост. Что как раз объясняет пост выше про фейлы в коде: в среднем то же самое, на редких токенах хуже.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
-
- Воздух против AIO в 2026: есть ли вообще смысл в водянке для домашнего ПК?
11 ответов · 492 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость