Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Теги: #GPU#Qwen
Рейтинг: 84.2% · 42 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Аватара пользователя
fedor8298
Сообщения: 2
Зарегистрирован: Сб май 16, 2026 5:41 pm

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Сообщение fedor8298 »

а можно для тупых: KL-дивергенция это что в этом контексте
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
milana6182
Сообщения: 2
Зарегистрирован: Вс май 24, 2026 11:07 am

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Сообщение milana6182 »

lurker42, грубо: насколько распределение вероятностей следующего токена у кванта отличается от полной модели. Чем меньше тем кант ближе к оригиналу на твоих данных.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
ivan_omega30
Сообщения: 30
Зарегистрирован: Пн май 11, 2026 4:16 am

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Сообщение ivan_omega30 »

Двадцать лет в индустрии и вот сижу спорю про биты в нейросетке. Жизнь удалась. По делу: бери Q4_K_M, если влезает Q5 без свопа бери Q5, остальное оверинжиниринг.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
kolya_flux
Сообщения: 11
Зарегистрирован: Вт май 12, 2026 2:59 am

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Сообщение kolya_flux »

oldschool_coder, золотые слова. Своп в RAM убивает 5x скорости ради 0.1 ppl. Лучше Q4 целиком в VRAM чем Q5 с offload.
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
anna_ops79
Сообщения: 6
Зарегистрирован: Вт май 12, 2026 1:40 am

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Сообщение anna_ops79 »

Окей, консенсус примерно: на 32B держим Q4_K_M в VRAM целиком, не свопимся, для критичных задач если есть бюджет VRAM берём Q5. imatrix щупаем на низких битах. Спасибо, тред полезный.
👍1 ❤️ 🔥1 😄 🤔1
Аватара пользователя
matvey5884
Сообщения: 24
Зарегистрирован: Вт май 12, 2026 11:35 pm

Re: Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Сообщение matvey5884 »

Всё ещё считаю что мой кейс с функциями реальный, но соглашусь что доказать без большой выборки не могу. Закрою глаза и буду жить с Q4 как все нормальные люди.
👍 ❤️1 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость