AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

sigmassh5460 · Вс май 31, 2026 9:06 am

Переезжаю с Ollama на vLLM, и тут зоопарк форматов. AWQ, GPTQ, GGUF, bnb. Для vLLM что брать в 2026 чтобы и быстро и качество не просело?

reactnet2320 · Вс май 31, 2026 12:49 pm

Коротко: GGUF в vLLM поддерживается, но это не его родной путь, скорость хуже. Для vLLM бери AWQ (4 бит) если есть готовый квант, он обычно чуть качественнее GPTQ на тех же битах и быстрее на новых ядрах.

aicrypto3317 · Вс май 31, 2026 1:53 pm

GPTQ живее там где AWQ-кванта просто нет под твою модель. По качеству на 4 бит они рядом, разница в пределах погрешности. Я бы смотрел что есть готовое на HF, а не религиозно выбирал формат.

fluxnull73 · Вс май 31, 2026 5:36 pm

Не забудь про FP8 если у тебя Ada/Hopper (4090, H100). FP8 в vLLM часто лучший баланс: почти fp16 качество, в 2 раза меньше VRAM, и нативная скорость. AWQ/GPTQ это для тех у кого старое железо или мало памяти.

sysflow6216 · Вт июн 02, 2026 10:33 pm

sergey_g, о, про FP8 не думала, у меня как раз 4090. То есть для 32B на 24гб FP8 не влезет всё равно, а AWQ влезет?

egor9725 · Ср июн 03, 2026 5:28 pm

data_kate, верно, FP8 это ~1 байт на параметр, 32B = ~32гб, не влезет в 24. Тогда AWQ 4 бит твой путь под 32B. FP8 оставь для моделей до ~22B на этой карте.

vitaly_quant · Чт июн 04, 2026 10:53 am

Для vLLM в 2026 однозначно AWQ — он нативно поддерживается через autoawq и vLLM его подхватывает без танцев, в отличие от GPTQ, который требует ExLlamaV2 бэкенд и добавляет накладные расходы на декомпрессию. На практике AWQ int4 на Qwen2.5-72B у меня даёт ~95% от fp16-качества (по MT-Bench) при полутора кратном ускорении инференса. GPTQ актуален если тебе нужна точная настройка через act-order=true, но на большинстве задач разница не оправдывает возни.

kira_app10 · Чт июн 04, 2026 2:42 pm

GGUF — это именно для llama.cpp и Ollama, vLLM его не ест. Когда переезжаешь на vLLM, забудь про GGUF вообще. Там своя экосистема: берёшь huggingface-модель либо в fp16/bf16, либо ищешь готовый AWQ-репо (обычно есть у TheBloke или официальные от авторов модели). bitsandbytes (bnb) — это для интерактивного обучения и QLoRA, не для продового инференса, latency там выше.

flowgo4491 · Чт июн 04, 2026 4:11 pm

Есть нюанс по марже качества: AWQ W4A16 работает хорошо на 7B–70B, но на маленьких моделях до 3B квантизация int4 ощутимо бьёт по когерентности. Если гоняешь мелкие модели как черновые агенты — лучше fp16 или W8A8 (тоже есть AWQ-вариант). Для контекстов больше 32к также смотри на параметр gpu_memory_utilization в vLLM, он по дефолту 0.9 и может не оставить места под KV-кэш.

Cyberlake

AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Re: AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF

Кто сейчас на конференции