Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Теги: #GPU#Qwen
Рейтинг: 84.2% · 42 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Аватара пользователя
grigory_flux48
Сообщения: 3
Зарегистрирован: Сб май 16, 2026 9:52 pm

Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Сообщение grigory_flux48 »

Гоняю Qwen2.5-32B на 3090. Влезает только Q4_K_M, Q5_K_M уже свопится в RAM и тормозит. Вопрос холиварный: кто реально видел деградацию на Q4_K_M в задачах кода/RAG, а не на синтетике с perplexity?
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
semyon_core
Сообщения: 14
Зарегистрирован: Пн май 11, 2026 3:55 am

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Сообщение semyon_core »

По цифрам из llama.cpp Q4_K_M даёт +0.2 ppl на 7B, Q5_K_M ближе к +0.04. Но ppl это средняя температура по больнице, на коде разница ловится в редких краевых случаях.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
filipp8696
Сообщения: 3
Зарегистрирован: Пн май 11, 2026 6:56 pm

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Сообщение filipp8696 »

У меня обратный опыт: на 32B Q4_K_M периодически путал имена функций при рефакторинге, на Q5_K_M ушло. Может совпадение, но я после этого Q5 не отдаю.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
secflux9333
Сообщения: 3
Зарегистрирован: Пт май 15, 2026 4:19 pm

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Сообщение secflux9333 »

RustFan, а ты температуру фиксировал между прогонами? Без seed и temp=0 такие сравнения это гадание на кофейной гуще.
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
roman_git77
Сообщения: 2
Зарегистрирован: Вт май 12, 2026 11:30 pm

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Сообщение roman_git77 »

data_kate, temp 0, seed фиксированный, один и тот же промпт. Не на отвали сравнивал.
👍3 ❤️1 🔥1 😄 🤔
Аватара пользователя
bytecloud6505
Сообщения: 4
Зарегистрирован: Сб май 23, 2026 9:35 pm

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Сообщение bytecloud6505 »

Тут нюанс: чем больше модель, тем меньше она страдает от квантизации. На 70B Q4 почти неотличим от fp16, а вот на 7B Q4 уже заметно тупит. У тебя 32B это зона где ещё спорно.
👍1 ❤️ 🔥 😄1 🤔
Аватара пользователя
alex537
Сообщения: 1
Зарегистрирован: Ср май 13, 2026 10:51 am

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Сообщение alex537 »

perf_freak, вот это и бесит. Хочется правило, а получается 'зависит'. Кто-нибудь imatrix-кванты пробовал? Говорят на тех же битах качество выше.
👍3 ❤️ 🔥2 😄3 🤔1
Аватара пользователя
roman_sigma
Сообщения: 13
Зарегистрирован: Пн май 11, 2026 2:24 am

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Сообщение roman_sigma »

imatrix реально помогает на низких битах, Q3 с imatrix живее обычного Q3. На Q4_K_M разница уже в пределах шума, я бы не заморачивался.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
alina_tech
Сообщения: 6
Зарегистрирован: Пт май 15, 2026 12:32 am

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Сообщение alina_tech »

Народ, вы перплексию меряете на wikitext, а юзаете на русском коде с комментами на русском. Это вообще другой распределение. Ваши ppl-таблички тут мало о чём говорят.
👍2 ❤️ 🔥 😄1 🤔
Аватара пользователя
bytecode4208
Сообщения: 1
Зарегистрирован: Сб май 23, 2026 4:26 am

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Сообщение bytecode4208 »

anton_py +1. Я для своих задач собрала маленький калибровочный сет из реальных промптов и мерила KL-дивергенцию выходов относительно fp16. Вот это показательнее ppl.
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость