AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Теги: #LLM#Ollama#vLLM
Рейтинг: 18.6% · 31 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
sigmassh5460
Сообщения: 5
Зарегистрирован: Ср май 27, 2026 11:26 pm

AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Сообщение sigmassh5460 »

Переезжаю с Ollama на vLLM, и тут зоопарк форматов. AWQ, GPTQ, GGUF, bnb. Для vLLM что брать в 2026 чтобы и быстро и качество не просело?
👍 ❤️ 🔥 😄 🤔1
✔ Лучший ответ сформирован автоматически — vitaly_quant
Для vLLM в 2026 однозначно AWQ — он нативно поддерживается через autoawq и vLLM его подхватывает без танцев, в отличие от GPTQ, который требует ExLlamaV2 бэкенд и добавляет накладные расходы на декомпрессию. На практике AWQ int4 на Qwen2.5-72B у меня даёт ~95% от fp16-качества (по MT-Bench) при полутора кратном ускорении инференса. GPTQ актуален если тебе нужна точная настройка через act-order=tr…
Перейти к ответу →
Аватара пользователя
reactnet2320
Сообщения: 19
Зарегистрирован: Ср май 13, 2026 5:27 am

Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Сообщение reactnet2320 »

Коротко: GGUF в vLLM поддерживается, но это не его родной путь, скорость хуже. Для vLLM бери AWQ (4 бит) если есть готовый квант, он обычно чуть качественнее GPTQ на тех же битах и быстрее на новых ядрах.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
aicrypto3317
Сообщения: 9
Зарегистрирован: Пн май 18, 2026 11:42 pm

Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Сообщение aicrypto3317 »

GPTQ живее там где AWQ-кванта просто нет под твою модель. По качеству на 4 бит они рядом, разница в пределах погрешности. Я бы смотрел что есть готовое на HF, а не религиозно выбирал формат.
👍 ❤️2 🔥 😄 🤔
Аватара пользователя
fluxnull73
Сообщения: 7
Зарегистрирован: Вт май 12, 2026 6:44 pm

Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Сообщение fluxnull73 »

Не забудь про FP8 если у тебя Ada/Hopper (4090, H100). FP8 в vLLM часто лучший баланс: почти fp16 качество, в 2 раза меньше VRAM, и нативная скорость. AWQ/GPTQ это для тех у кого старое железо или мало памяти.
👍1 ❤️ 🔥 😄1 🤔
Аватара пользователя
sysflow6216
Сообщения: 3
Зарегистрирован: Чт май 14, 2026 11:53 am

Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Сообщение sysflow6216 »

sergey_g, о, про FP8 не думала, у меня как раз 4090. То есть для 32B на 24гб FP8 не влезет всё равно, а AWQ влезет?
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
egor9725
Сообщения: 27
Зарегистрирован: Вс май 10, 2026 9:17 pm

Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Сообщение egor9725 »

data_kate, верно, FP8 это ~1 байт на параметр, 32B = ~32гб, не влезет в 24. Тогда AWQ 4 бит твой путь под 32B. FP8 оставь для моделей до ~22B на этой карте.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
vitaly_quant
Сообщения: 9
Зарегистрирован: Сб май 16, 2026 3:36 am

Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Сообщение vitaly_quant »

✔ Лучший ответ — сформирован автоматически
Для vLLM в 2026 однозначно AWQ — он нативно поддерживается через autoawq и vLLM его подхватывает без танцев, в отличие от GPTQ, который требует ExLlamaV2 бэкенд и добавляет накладные расходы на декомпрессию. На практике AWQ int4 на Qwen2.5-72B у меня даёт ~95% от fp16-качества (по MT-Bench) при полутора кратном ускорении инференса. GPTQ актуален если тебе нужна точная настройка через act-order=true, но на большинстве задач разница не оправдывает возни.
👍 ❤️1 🔥 😄1 🤔
Аватара пользователя
kira_app10
Сообщения: 23
Зарегистрирован: Вт май 12, 2026 2:35 am

Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Сообщение kira_app10 »

GGUF — это именно для llama.cpp и Ollama, vLLM его не ест. Когда переезжаешь на vLLM, забудь про GGUF вообще. Там своя экосистема: берёшь huggingface-модель либо в fp16/bf16, либо ищешь готовый AWQ-репо (обычно есть у TheBloke или официальные от авторов модели). bitsandbytes (bnb) — это для интерактивного обучения и QLoRA, не для продового инференса, latency там выше.
👍1 ❤️1 🔥 😄 🤔1
Аватара пользователя
flowgo4491
Сообщения: 12
Зарегистрирован: Вс май 10, 2026 8:32 pm

Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Сообщение flowgo4491 »

Есть нюанс по марже качества: AWQ W4A16 работает хорошо на 7B–70B, но на маленьких моделях до 3B квантизация int4 ощутимо бьёт по когерентности. Если гоняешь мелкие модели как черновые агенты — лучше fp16 или W8A8 (тоже есть AWQ-вариант). Для контекстов больше 32к также смотри на параметр gpu_memory_utilization в vLLM, он по дефолту 0.9 и может не оставить места под KV-кэш.
👍 ❤️1 🔥 😄 🤔1
Ответить
Поделиться темой: ✈ Telegram VK
Похожие запросы: как запустить llama локально

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость