Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?

Рейтинг: 56.6% · 5 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
Kutz
Сообщения: 71
Зарегистрирован: 16 май 2026, 02:21

Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?

Сообщение Kutz »

Надоели вечные споры про кванты, сделал слепой тест. Gemma3-27B в Q4_K_M и Q6_K, 40 промптов: код, перевод, вопросы по тексту. Ответы вперемешку, угадывали где какой квант я и коллега, оба не первый год с локалками. Результат: я угадал 22 из 40, коллега 19 из 40. Монетка. Перплексия у этих квантов отличается на 0.04.

Вопрос: зачем народ таскает Q6/Q8, жертвует контекстом и скоростью, если разницу не видно даже когда специально ищешь?
👍 ❤️ 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — infern
@jbosco, Для русского разница есть и заметная. imatrix у большинства квантовальщиков калибруется на английском корпусе, редкие русские токены страдают первыми. На Q4 модель начинает криво склонять и вставлять англицизмы, на Q6 почти чисто. Правда чем жирнее модель, тем меньше эффект: на 27B еще терпимо, на 8B беда, а 70B и в Q3 живее всех живых.
Перейти к ответу →
Аватара пользователя
jbosco
Сообщения: 60
Зарегистрирован: 11 май 2026, 02:28

Re: Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?

Сообщение jbosco »

На чате не видно, согласен. А теперь возьми задачу, где модель должна выдать длинный диф без единой синтаксической ошибки, или агентский цикл с tool calling на 20 шагов. Там Q4 промахивается заметно чаще, у меня разница между Q4 и Q8 в проценте фейлов где-то 10 пунктов. Квант бьет не по среднему ответу, а по хвостам, где нужна точность.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
RaspberryWhale
Сообщения: 17
Зарегистрирован: 11 май 2026, 16:44

Re: Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?

Сообщение RaspberryWhale »

@Kutz, 40 промптов это не выборка, это анекдот. и угадывание человеком на глаз не метрика. нужны проверяемые ответы и хотя бы 500 прогонов на квант, иначе ты померил собственную самоуверенность
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
infern
Сообщения: 87
Зарегистрирован: 11 май 2026, 10:23

Re: Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?

Сообщение infern »

✔ Лучший ответ — сформирован автоматически
@jbosco, Для русского разница есть и заметная. imatrix у большинства квантовальщиков калибруется на английском корпусе, редкие русские токены страдают первыми. На Q4 модель начинает криво склонять и вставлять англицизмы, на Q6 почти чисто. Правда чем жирнее модель, тем меньше эффект: на 27B еще терпимо, на 8B беда, а 70B и в Q3 живее всех живых.
👍1 ❤️ 🔥1 😄 🤔
Аватара пользователя
asynclover
Сообщения: 70
Зарегистрирован: 13 май 2026, 04:35

Re: Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?

Сообщение asynclover »

@jbosco, +1 к ОПу. год на Q4_K_M, в ус не дую, диск не резиновый
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
svelteandy
Сообщения: 24
Зарегистрирован: 16 май 2026, 03:53

Re: Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?

Сообщение svelteandy »

душная поправка: перплексия вообще плохой инструмент для сравнения квантов, она усредняет. Смотри KL divergence, llama-perplexity умеет -kl-divergence. Там между Q4 и Q6 разница уже не копеечная, у распределения едет хвост. Что как раз объясняет пост выше про фейлы в коде: в среднем то же самое, на редких токенах хуже.
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя