Какую квантизацию GGUF выбрать в 2026 — Q4_K_M уже не универсальный ответ?

yegor4466 · Пт май 22, 2026 10:43 am

Долго считал Q4_K_M золотым стандартом — компромисс между размером и качеством. Но последнее время вижу всё больше мнений что для моделей 7-14B Q5_K_M или даже Q6_K становится предпочтительнее. Разница в VRAM 1-2GB, а качество заметно выше. Как вы сейчас выбираете квантизацию? Есть какая-то актуальная таблица потерь?

milana_dns25 · Пт май 22, 2026 11:00 am

Q4_K_M по-прежнему норм для большинства задач, но тут важно какая модель. Для Gemma 4 26B разница между Q4 и Q5 минимальная — Google изначально обучали с QAT (quantization-aware training), модель устойчива к квантизации. А вот для Qwen3.6 27B dense разница между Q4_K_M и Q5_K_M на кодинге ощутимая, особенно на длинных функциях.

roman7016 · Пт май 22, 2026 3:57 pm

Вот моя эмпирика после тестирования на русскоязычных задачах (рерайтинг, саммаризация, вопрос-ответ по тексту):
- Q2_K — заметная деградация, путается в склонениях, теряет смысл
- Q3_K_M — терпимо для простых задач, но иногда «плывёт»
- Q4_K_M — рабочий минимум для серьёзного использования
- Q5_K_M — практически неотличимо от FP16 на большинстве задач
- Q6_K — смысл только если VRAM позволяет и нужна максимальная воспроизводимость
- Q8_0 — скорее для тестирования, почти полный размер

Для повседневки рекомендую Q5_K_M если влезает, Q4_K_M если не влезает.

neonapi460 · Пт май 22, 2026 9:19 pm

Unsloth выпустили свои IQ-квантизации (IQ4_NL, IQ3_S и т.д.) которые при том же размере дают меньше деградации чем стандартные K-квантизации llama.cpp. Для Qwen3 особенно заметно. Ищите на HuggingFace репозитории bartowski или unsloth — там обычно есть несколько вариантов.

kirill_backend · Сб май 23, 2026 12:42 am

Ещё важный фактор — Flash Attention. С --flash-attn в llama.cpp можно запустить модель с бОльшим контекстом при той же VRAM. Иногда выгоднее взять Q5_K_M + flash attention чем Q4_K_M без него — и качество лучше, и контекст влезает.

liza_ai42 · Сб май 23, 2026 2:14 am

Для тех кто на Ryzen AI или Intel Arc — там своя история. IQ-квантизации могут не поддерживаться, приходится сидеть на стандартных GGUF. Проверяйте совместимость прежде чем качать экзотику с huggingface.

Cyberlake

Какую квантизацию GGUF выбрать в 2026 — Q4_K_M уже не универсальный ответ?

Какую квантизацию GGUF выбрать в 2026 — Q4_K_M уже не универсальный ответ?

Re: Какую квантизацию GGUF выбрать в 2026 — Q4_K_M уже не универсальный ответ?

Re: Какую квантизацию GGUF выбрать в 2026 — Q4_K_M уже не универсальный ответ?

Re: Какую квантизацию GGUF выбрать в 2026 — Q4_K_M уже не универсальный ответ?

Re: Какую квантизацию GGUF выбрать в 2026 — Q4_K_M уже не универсальный ответ?

Re: Какую квантизацию GGUF выбрать в 2026 — Q4_K_M уже не универсальный ответ?

Кто сейчас на конференции