Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

Рейтинг: 63.7% · 65 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить

Чем запускаете локальные модели?

Ollama
26
29%
llama.cpp / llama-server
24
27%
vLLM
9
10%
LM Studio
12
13%
Другое
19
21%
 
Всего голосов: 90

Аватара пользователя
roman7016
Сообщения: 36
Зарегистрирован: Вт май 12, 2026 12:05 am

Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

Сообщение roman7016 »

Вечный спор. Одни говорят Q4_K_M неотличим от fp16, другие что на сложных задачах квант разваливается. Хочется услышать тех кто реально сравнивал на своих задачах, а не по бенчам с реддита.
👍1 ❤️ 🔥1 😄 🤔1
Аватара пользователя
gleb_dns92
Сообщения: 11
Зарегистрирован: Пн май 11, 2026 9:38 pm

Re: Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

Сообщение gleb_dns92 »

Я гоняла Qwen2.5-Coder 14B на генерации SQL. Q8 и Q6 практически идентичны, Q4_K_M начинает иногда путать имена колонок на длинных схемах. На простых запросах разницы ноль.
👍1 ❤️1 🔥1 😄 🤔
Аватара пользователя
sqlreact9621
Сообщения: 28
Зарегистрирован: Вс май 10, 2026 9:45 pm

Re: Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

Сообщение sqlreact9621 »

Эмпирика такая: чем больше модель, тем безболезненнее квантизация. 70B в Q4 ощущается лучше чем 8B в Q8. Поэтому правило - бери максимально большую модель, которая влезает, даже в低 кванте.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
sasha_node
Сообщения: 3
Зарегистрирован: Вт май 12, 2026 11:13 pm

Re: Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

Сообщение sasha_node »

Подтверждаю про размер. На 7-8B падение от Q4 уже заметно по связности на длинных рассуждениях. А вот imatrix-кванты (IQ4_XS и подобные) при том же размере заметно лучше старых Q4_0, многие про это забывают.
👍2 ❤️ 🔥 😄 🤔1
Аватара пользователя
sshdaemon6696
Сообщения: 3
Зарегистрирован: Пн май 11, 2026 5:41 pm

Re: Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

Сообщение sshdaemon6696 »

Про imatrix интересно. То есть IQ4_XS лучше Q4_K_M при меньшем весе? Или там trade-off по скорости?
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
alex_react13
Сообщения: 1
Зарегистрирован: Пн июн 01, 2026 12:48 am

Re: Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

Сообщение alex_react13 »

IQ-кванты чуть медленнее на CPU из-за более сложного декодирования, на GPU разница мизерная. По качеству на единицу размера imatrix почти всегда выигрывает. Я для всего что меньше 13B беру именно их.
👍3 ❤️ 🔥 😄 🤔2
Аватара пользователя
milana_ai99
Сообщения: 23
Зарегистрирован: Пн май 11, 2026 7:23 am

Re: Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

Сообщение milana_ai99 »

Главный совет - не гонитесь за Q8 если можно влезть в более жирную модель в Q5. Q5_K_M это по сути sweet spot для большинства, качество отличное, размер вменяемый.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
matvey5196
Сообщения: 3
Зарегистрирован: Вт май 12, 2026 10:58 am

Re: Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо?

Сообщение matvey5196 »

Окей, вывод: для своих задач сравню Q4_K_M, IQ4_XS и Q5_K_M на одном промпте. Спасибо, было полезно, а то я уже думал что Q8 это обязаловка.
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость