Как конвертировать модель в GGUF формат для llama.cpp

Рейтинг: 63.4% · 90 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
proxysec3918
Сообщения: 7
Зарегистрирован: Сб май 16, 2026 6:27 am

Как конвертировать модель в GGUF формат для llama.cpp

Сообщение proxysec3918 »

Скачал Mistral-7B-Instruct-v0.3 с Hugging Face в исходном формате (safetensors). Хочу запустить через llama.cpp на своём ноуте с 8GB VRAM. Нашёл скрипт convert_hf_to_gguf.py в репозитории llama.cpp, но не очень понимаю весь пайплайн. Какие шаги, какой тип квантизации выбрать, и как понять сколько VRAM займёт результат?
👍 ❤️ 🔥 😄 🤔
✔ Лучший ответ выбран автором и совпадает с автоматическим подбором — denis9127
Подробнее про выбор квантизации. Типы делятся на две группы: старые (Q4_0, Q5_0, Q8_0) и новые k-quants (Q3_K_S/M/L, Q4_K_S/M, Q5_K_S/M, Q6_K). K-quants почти всегда лучше: они умнее распределяют биты между слоями модели. Правило такое: берёшь Q4_K_M как базу. Если VRAM позволяет — Q5_K_M или Q6_K. Если совсем мало памяти — Q3_K_M, но качество заметно просядет. IQ-квантизации (IQ2_XXS, IQ3_M и т.…
Перейти к ответу →
Аватара пользователя
quantsigma1720
Сообщения: 6
Зарегистрирован: Пт май 15, 2026 4:19 pm

Re: Как конвертировать модель в GGUF формат для llama.cpp

Сообщение quantsigma1720 »

Пайплайн простой: клонируй llama.cpp, установи зависимости pip install -r requirements.txt, потом python convert_hf_to_gguf.py /путь/к/модели --outfile mistral-7b.gguf --outtype f16. Это даст базовый float16 GGUF. Дальше квантизуй через ./quantize mistral-7b.gguf mistral-7b-q4_k_m.gguf Q4_K_M.
👍1 ❤️ 🔥 😄 🤔1
Аватара пользователя
sysgit2651
Сообщения: 4
Зарегистрирован: Вт май 12, 2026 2:41 am

Re: Как конвертировать модель в GGUF формат для llama.cpp

Сообщение sysgit2651 »

Для 8GB VRAM на 7B модели рекомендую Q4_K_M — это золотой стандарт, баланс качества и размера. Готовый файл будет около 4.4GB, влезает с запасом и остаётся память под контекст. Q5_K_M займёт ~5.2GB, качество чуть лучше, но уже плотнее. Q8_0 — 7.2GB, почти без потерь, но для 8GB карты при длинном контексте может не хватить.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
cryptovector8211
Сообщения: 1
Зарегистрирован: Пн май 25, 2026 6:49 pm

Re: Как конвертировать модель в GGUF формат для llama.cpp

Сообщение cryptovector8211 »

Кстати, для популярных моделей зачастую проще просто скачать уже готовый GGUF с Hugging Face — пользователь bartowski или TheBloke (хотя он не обновляется) уже всё сконвертировали и проквантовали. Для Mistral 7B v0.3 ищи bartowski/Mistral-7B-Instruct-v0.3-GGUF на hf.co.
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
denis9127
Сообщения: 25
Зарегистрирован: Ср май 13, 2026 8:17 am

Re: Как конвертировать модель в GGUF формат для llama.cpp

Сообщение denis9127 »

✔ Лучший ответ — выбран автором и совпадает с авто-подбором
Подробнее про выбор квантизации. Типы делятся на две группы: старые (Q4_0, Q5_0, Q8_0) и новые k-quants (Q3_K_S/M/L, Q4_K_S/M, Q5_K_S/M, Q6_K). K-quants почти всегда лучше: они умнее распределяют биты между слоями модели. Правило такое: берёшь Q4_K_M как базу. Если VRAM позволяет — Q5_K_M или Q6_K. Если совсем мало памяти — Q3_K_M, но качество заметно просядет. IQ-квантизации (IQ2_XXS, IQ3_M и т.д.) — это ещё более агрессивное сжатие через importance matrix, используется когда совсем туго с памятью. Для оценки занимаемой VRAM есть простая формула: размер_файла_GGUF + примерно 0.5-1GB под KV-cache при стандартном контексте 4096 токенов. При контексте 32768 KV-cache может сожрать ещё 2-4GB в зависимости от архитектуры.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
grigory2102
Сообщения: 17
Зарегистрирован: Пн май 11, 2026 1:50 pm

Re: Как конвертировать модель в GGUF формат для llama.cpp

Сообщение grigory2102 »

Не забудь после конвертации проверить что модель работает корректно: ./llama-cli -m mistral-7b-q4_k_m.gguf -p "Hello, how are you?" -n 100. Если видишь осмысленный ответ — всё окей.
👍3 ❤️1 🔥1 😄 🤔
Аватара пользователя
ivan_omega
Сообщения: 1
Зарегистрирован: Пн май 11, 2026 11:10 am

Re: Как конвертировать модель в GGUF формат для llama.cpp

Сообщение ivan_omega »

Совет из личного опыта: если планируешь постоянно работать с несколькими моделями, поставь LM Studio — у него удобный GUI для скачивания GGUF прямо с HF и встроенный сервер. Для экспериментов удобнее чем руками запускать llama-cli.
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость