Слепой тест Q4_K_M против Q8_0, результат меня удивил

Рейтинг: 40.9% · 8 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
sabaza
Сообщения: 39
Зарегистрирован: 12 май 2026, 00:38

Слепой тест Q4_K_M против Q8_0, результат меня удивил

Сообщение sabaza »

Надоели споры про кванты на глазок, сделал слепой тест. Qwen3-32B в Q4_K_M и Q8_0, скрипт кидает один и тот же промпт в обе и показывает ответы вперемешку, я угадываю где какой. 50 промптов: код, рефакторинг, перевод, саммари, чуть математики.

Результат: угадал 26 из 50. Монетка, бл. Девять гигов разницы в весе, заметно медленнее на моем железе, и я не отличаю.

Вывод для себя: Q8 это плацебо, по крайней мере на 30B+. Сижу на Q4_K_M и не парюсь. Кто-нибудь вообще видел разницу глазами, а не в табличках перплексити?
👍 ❤️ 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — barbs
spark_pilot писал(а):если не ноль, ты сравнивал не кванты а лотерею сэмплера каюсь, стояло 0.7, протупил. перегнал сегодня полсотни промптов на нуле, угадал 31 из 50. уже не монетка, но и не разгром. итог скорректирую: 30B+ для кода и английского q4 норм, для русского и мелких моделей q6 и выше. всем спасибо за конструктив, кроме поста 5 хах
Перейти к ответу →
Аватара пользователя
spark_pilot
Сообщения: 16
Зарегистрирован: 15 май 2026, 05:44

Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил

Сообщение spark_pilot »

тест ни о чем без деталей. температура какая стояла? если не ноль, ты сравнивал не кванты а лотерею сэмплера. и 50 промптов это не выборка. хочешь по уму, в llama.cpp есть llama-perplexity с --kl-divergence, прогони по своему корпусу и будет цифра вместо ощущений
👍1 ❤️1 🔥1 😄 🤔1
Аватара пользователя
ceph7
Сообщения: 33
Зарегистрирован: 13 май 2026, 08:39

Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил

Сообщение ceph7 »

@spark_pilot, в чате разницы нет, подтверждаю. но на генерации длинного кода строк на 500 q4 у меня стабильно чаще зацикливается и теряет скобки. так что зависит от того, чем модель кормишь
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
lorenzinoarq
Сообщения: 65
Зарегистрирован: 11 май 2026, 00:03

Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил

Сообщение lorenzinoarq »

sabaza писал(а):Q8 это плацебо, по крайней мере на 30B+
оговорка про 30B+ тут ключевая, а ты ее сам же хоронишь выводом сиди на q4 и не парься. на 7-9B кванты режут больно: мелкая гемма в q4 на русском начинает слова выдумывать, в q8 нет. чем меньше модель, тем дороже ей каждый отрезанный бит
👍 ❤️1 🔥1 😄2 🤔
Аватара пользователя
coldpanic
Сообщения: 45
Зарегистрирован: 11 май 2026, 19:45

Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил

Сообщение coldpanic »

@ceph7, очередное открытие века. таблицы перплексити по всем квантам лежат с 2023 года, там все это видно. ниче нового
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
regexveteran
Сообщения: 34
Зарегистрирован: 12 май 2026, 03:09

Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил

Сообщение regexveteran »

coldpanic писал(а):таблицы перплексити по всем квантам лежат с 2023 года
и почти ничего не говорят. дельта ppl в полпроцента, а модель в агентном режиме перестает попадать в формат тул-коллов, перплексити такое не ловит вообще. поэтому слепые тесты на своих задачах полезнее табличек, ТС все правильно делает, просто методика хромает
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
tiger71
Сообщения: 44
Зарегистрирован: 10 май 2026, 23:32

Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил

Сообщение tiger71 »

@regexveteran, а IQ4_XS кто-нибудь гонял против Q4_K_M? по размеру меньше, по табличкам не хуже, но на чистом cpu у меня он заметно медленнее. и от imatrix зависит, на чем калибровали
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
wasmsre
Сообщения: 13
Зарегистрирован: 11 май 2026, 03:17

Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил

Сообщение wasmsre »

на русском разница виднее, кстати. мелкие кванты путают падежи и склоняют выдуманное, на английском такого нет. держу саппорт-бота на русском, опытным путем пришел к q6 минимум. на английских тестах этого не увидишь
👍2 ❤️1 🔥1 😄 🤔
Аватара пользователя
barbs
Сообщения: 50
Зарегистрирован: 19 май 2026, 04:16

Re: Слепой тест Q4_K_M против Q8_0, результат меня удивил

Сообщение barbs »

✔ Лучший ответ — сформирован автоматически
spark_pilot писал(а):если не ноль, ты сравнивал не кванты а лотерею сэмплера
каюсь, стояло 0.7, протупил. перегнал сегодня полсотни промптов на нуле, угадал 31 из 50. уже не монетка, но и не разгром. итог скорректирую: 30B+ для кода и английского q4 норм, для русского и мелких моделей q6 и выше. всем спасибо за конструктив, кроме поста 5 хах
👍 ❤️ 🔥2 😄1 🤔1
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость