Как конвертировать модель в GGUF формат для llama.cpp
Рейтинг: 63.4% · 90 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- proxysec3918
- Сообщения: 7
- Зарегистрирован: Сб май 16, 2026 6:27 am
Как конвертировать модель в GGUF формат для llama.cpp
Скачал Mistral-7B-Instruct-v0.3 с Hugging Face в исходном формате (safetensors). Хочу запустить через llama.cpp на своём ноуте с 8GB VRAM. Нашёл скрипт convert_hf_to_gguf.py в репозитории llama.cpp, но не очень понимаю весь пайплайн. Какие шаги, какой тип квантизации выбрать, и как понять сколько VRAM займёт результат?
✔ Лучший ответ выбран автором и совпадает с автоматическим подбором — denis9127
Подробнее про выбор квантизации. Типы делятся на две группы: старые (Q4_0, Q5_0, Q8_0) и новые k-quants (Q3_K_S/M/L, Q4_K_S/M, Q5_K_S/M, Q6_K). K-quants почти всегда лучше: они умнее распределяют биты между слоями модели. Правило такое: берёшь Q4_K_M как базу. Если VRAM позволяет — Q5_K_M или Q6_K. Если совсем мало памяти — Q3_K_M, но качество заметно просядет. IQ-квантизации (IQ2_XXS, IQ3_M и т.…
- quantsigma1720
- Сообщения: 6
- Зарегистрирован: Пт май 15, 2026 4:19 pm
Re: Как конвертировать модель в GGUF формат для llama.cpp
Пайплайн простой: клонируй llama.cpp, установи зависимости pip install -r requirements.txt, потом python convert_hf_to_gguf.py /путь/к/модели --outfile mistral-7b.gguf --outtype f16. Это даст базовый float16 GGUF. Дальше квантизуй через ./quantize mistral-7b.gguf mistral-7b-q4_k_m.gguf Q4_K_M.
- sysgit2651
- Сообщения: 4
- Зарегистрирован: Вт май 12, 2026 2:41 am
Re: Как конвертировать модель в GGUF формат для llama.cpp
Для 8GB VRAM на 7B модели рекомендую Q4_K_M — это золотой стандарт, баланс качества и размера. Готовый файл будет около 4.4GB, влезает с запасом и остаётся память под контекст. Q5_K_M займёт ~5.2GB, качество чуть лучше, но уже плотнее. Q8_0 — 7.2GB, почти без потерь, но для 8GB карты при длинном контексте может не хватить.
- cryptovector8211
- Сообщения: 1
- Зарегистрирован: Пн май 25, 2026 6:49 pm
Re: Как конвертировать модель в GGUF формат для llama.cpp
Кстати, для популярных моделей зачастую проще просто скачать уже готовый GGUF с Hugging Face — пользователь bartowski или TheBloke (хотя он не обновляется) уже всё сконвертировали и проквантовали. Для Mistral 7B v0.3 ищи bartowski/Mistral-7B-Instruct-v0.3-GGUF на hf.co.
Re: Как конвертировать модель в GGUF формат для llama.cpp
✔ Лучший ответ — выбран автором и совпадает с авто-подбором
Подробнее про выбор квантизации. Типы делятся на две группы: старые (Q4_0, Q5_0, Q8_0) и новые k-quants (Q3_K_S/M/L, Q4_K_S/M, Q5_K_S/M, Q6_K). K-quants почти всегда лучше: они умнее распределяют биты между слоями модели. Правило такое: берёшь Q4_K_M как базу. Если VRAM позволяет — Q5_K_M или Q6_K. Если совсем мало памяти — Q3_K_M, но качество заметно просядет. IQ-квантизации (IQ2_XXS, IQ3_M и т.д.) — это ещё более агрессивное сжатие через importance matrix, используется когда совсем туго с памятью. Для оценки занимаемой VRAM есть простая формула: размер_файла_GGUF + примерно 0.5-1GB под KV-cache при стандартном контексте 4096 токенов. При контексте 32768 KV-cache может сожрать ещё 2-4GB в зависимости от архитектуры.
- grigory2102
- Сообщения: 17
- Зарегистрирован: Пн май 11, 2026 1:50 pm
- ivan_omega
- Сообщения: 1
- Зарегистрирован: Пн май 11, 2026 11:10 am
Re: Как конвертировать модель в GGUF формат для llama.cpp
Совет из личного опыта: если планируешь постоянно работать с несколькими моделями, поставь LM Studio — у него удобный GUI для скачивания GGUF прямо с HF и встроенный сервер. Для экспериментов удобнее чем руками запускать llama-cli.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей