AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF
Рейтинг: 18.6% · 31 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- sigmassh5460
- Сообщения: 5
- Зарегистрирован: Ср май 27, 2026 11:26 pm
✔ Лучший ответ сформирован автоматически — vitaly_quant
Для vLLM в 2026 однозначно AWQ — он нативно поддерживается через autoawq и vLLM его подхватывает без танцев, в отличие от GPTQ, который требует ExLlamaV2 бэкенд и добавляет накладные расходы на декомпрессию. На практике AWQ int4 на Qwen2.5-72B у меня даёт ~95% от fp16-качества (по MT-Bench) при полутора кратном ускорении инференса. GPTQ актуален если тебе нужна точная настройка через act-order=tr…
- reactnet2320
- Сообщения: 19
- Зарегистрирован: Ср май 13, 2026 5:27 am
- aicrypto3317
- Сообщения: 9
- Зарегистрирован: Пн май 18, 2026 11:42 pm
- fluxnull73
- Сообщения: 7
- Зарегистрирован: Вт май 12, 2026 6:44 pm
- sysflow6216
- Сообщения: 3
- Зарегистрирован: Чт май 14, 2026 11:53 am
- vitaly_quant
- Сообщения: 9
- Зарегистрирован: Сб май 16, 2026 3:36 am
Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF
✔ Лучший ответ — сформирован автоматически
Для vLLM в 2026 однозначно AWQ — он нативно поддерживается через autoawq и vLLM его подхватывает без танцев, в отличие от GPTQ, который требует ExLlamaV2 бэкенд и добавляет накладные расходы на декомпрессию. На практике AWQ int4 на Qwen2.5-72B у меня даёт ~95% от fp16-качества (по MT-Bench) при полутора кратном ускорении инференса. GPTQ актуален если тебе нужна точная настройка через act-order=true, но на большинстве задач разница не оправдывает возни.
- kira_app10
- Сообщения: 23
- Зарегистрирован: Вт май 12, 2026 2:35 am
Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF
GGUF — это именно для llama.cpp и Ollama, vLLM его не ест. Когда переезжаешь на vLLM, забудь про GGUF вообще. Там своя экосистема: берёшь huggingface-модель либо в fp16/bf16, либо ищешь готовый AWQ-репо (обычно есть у TheBloke или официальные от авторов модели). bitsandbytes (bnb) — это для интерактивного обучения и QLoRA, не для продового инференса, latency там выше.
- flowgo4491
- Сообщения: 12
- Зарегистрирован: Вс май 10, 2026 8:32 pm
Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF
Есть нюанс по марже качества: AWQ W4A16 работает хорошо на 7B–70B, но на маленьких моделях до 3B квантизация int4 ощутимо бьёт по когерентности. Если гоняешь мелкие модели как черновые агенты — лучше fp16 или W8A8 (тоже есть AWQ-вариант). Для контекстов больше 32к также смотри на параметр gpu_memory_utilization в vLLM, он по дефолту 0.9 и может не оставить места под KV-кэш.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Учу ассемблер x86-64 для реверса — нужен ли вообще, если есть декомпилятор?
9 ответов · 2116 просмотров
-
- Consumer SSD сдох за год под Proxmox, wearout 38% — это нормально вообще?
6 ответов · 1549 просмотров
-
-
- Коллега жалуется, что моя механика «долбит» на весь опенспейс. Это вообще нормально?
18 ответов · 875 просмотров
-
- Cursor опять переписал тарифы — теперь лимит 1 запрос в минуту, это вообще законно?
18 ответов · 838 просмотров
-
Похожие запросы:
как запустить llama локально
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость