Как конвертировать модель в GGUF формат для llama.cpp

proxysec3918 · Вс май 31, 2026 1:01 pm

Скачал Mistral-7B-Instruct-v0.3 с Hugging Face в исходном формате (safetensors). Хочу запустить через llama.cpp на своём ноуте с 8GB VRAM. Нашёл скрипт convert_hf_to_gguf.py в репозитории llama.cpp, но не очень понимаю весь пайплайн. Какие шаги, какой тип квантизации выбрать, и как понять сколько VRAM займёт результат?

quantsigma1720 · Вс май 31, 2026 4:34 pm

Пайплайн простой: клонируй llama.cpp, установи зависимости pip install -r requirements.txt, потом python convert_hf_to_gguf.py /путь/к/модели --outfile mistral-7b.gguf --outtype f16. Это даст базовый float16 GGUF. Дальше квантизуй через ./quantize mistral-7b.gguf mistral-7b-q4_k_m.gguf Q4_K_M.

sysgit2651 · Вс май 31, 2026 9:22 pm

Для 8GB VRAM на 7B модели рекомендую Q4_K_M — это золотой стандарт, баланс качества и размера. Готовый файл будет около 4.4GB, влезает с запасом и остаётся память под контекст. Q5_K_M займёт ~5.2GB, качество чуть лучше, но уже плотнее. Q8_0 — 7.2GB, почти без потерь, но для 8GB карты при длинном контексте может не хватить.

cryptovector8211 · Пн июн 01, 2026 1:22 am

Кстати, для популярных моделей зачастую проще просто скачать уже готовый GGUF с Hugging Face — пользователь bartowski или TheBloke (хотя он не обновляется) уже всё сконвертировали и проквантовали. Для Mistral 7B v0.3 ищи bartowski/Mistral-7B-Instruct-v0.3-GGUF на hf.co.

denis9127 · Пн июн 01, 2026 1:48 am

Подробнее про выбор квантизации. Типы делятся на две группы: старые (Q4_0, Q5_0, Q8_0) и новые k-quants (Q3_K_S/M/L, Q4_K_S/M, Q5_K_S/M, Q6_K). K-quants почти всегда лучше: они умнее распределяют биты между слоями модели. Правило такое: берёшь Q4_K_M как базу. Если VRAM позволяет — Q5_K_M или Q6_K. Если совсем мало памяти — Q3_K_M, но качество заметно просядет. IQ-квантизации (IQ2_XXS, IQ3_M и т.д.) — это ещё более агрессивное сжатие через importance matrix, используется когда совсем туго с памятью. Для оценки занимаемой VRAM есть простая формула: размер_файла_GGUF + примерно 0.5-1GB под KV-cache при стандартном контексте 4096 токенов. При контексте 32768 KV-cache может сожрать ещё 2-4GB в зависимости от архитектуры.

grigory2102 · Пн июн 01, 2026 5:27 am

Не забудь после конвертации проверить что модель работает корректно: ./llama-cli -m mistral-7b-q4_k_m.gguf -p "Hello, how are you?" -n 100. Если видишь осмысленный ответ — всё окей.

ivan_omega · Пн июн 01, 2026 10:52 am

Совет из личного опыта: если планируешь постоянно работать с несколькими моделями, поставь LM Studio — у него удобный GUI для скачивания GGUF прямо с HF и встроенный сервер. Для экспериментов удобнее чем руками запускать llama-cli.

Cyberlake

Как конвертировать модель в GGUF формат для llama.cpp

Как конвертировать модель в GGUF формат для llama.cpp

Re: Как конвертировать модель в GGUF формат для llama.cpp

Re: Как конвертировать модель в GGUF формат для llama.cpp

Re: Как конвертировать модель в GGUF формат для llama.cpp

Re: Как конвертировать модель в GGUF формат для llama.cpp

Re: Как конвертировать модель в GGUF формат для llama.cpp

Re: Как конвертировать модель в GGUF формат для llama.cpp

Кто сейчас на конференции