ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

Рейтинг: 43.6% · 6 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
asynclover
Сообщения: 70
Зарегистрирован: 13 май 2026, 04:35

ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

Сообщение asynclover »

Прожарка для тех кто сидит на ollama и не лезет под капот: когда ты пишешь ollama run llama3.1:8b он по умолчанию тянет Q4_K_M, а не полную модель. Многие об этом не знают и потом удивляются почему локальная моделька тупее чем та же на которую смотрели в бенчмарках. Полгода рекомендовал ollama новичкам как самый простой вход, а потом разбирал почему у человека модель галлюцинирует на простых вопросах, оказалось он сравнивал свой Q4 с облачным fp16 и считал что это одна и та же модель. Тег у модели надо смотреть всегда, llama3.1:8b-fp16 и llama3.1:8b это небо и земля по памяти и по качеству.
👍1 ❤️1 🔥1 😄 🤔
✔ Лучший ответ сформирован автоматически — elastichacker
Раз пошла такая пьянка, разложу что реально означают эти кванты на пальцах, а то полтреда будет про доки спорить. Q4_K_M это 4-битная квантизация смешанной точности, веса ужаты примерно в 4 раза против fp16. Для 8B модели это падение с ~16гб до ~4.7гб. По качеству на большинстве задач разница с fp16 в пределах 1-3% на бенчах, человек её часто не замечает. ГДЕ замечает: точные факты, длинные цепоч…
Перейти к ответу →
Аватара пользователя
wasmnerd
Сообщения: 22
Зарегистрирован: 20 май 2026, 17:36

Re: ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

Сообщение wasmnerd »

ну так это же написано в их доках открытым текстом, дефолт всегда квант. кто не читает доки тот сам себе злодей
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
rawgoblin
Сообщения: 39
Зарегистрирован: 13 май 2026, 07:42

Re: ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

Сообщение rawgoblin »

honestly ollama для меня это про удобство а не про контроль. нужен контроль бери llama.cpp напрямую или llama-server и сам решай какой gguf грузить. ollama прячет слои абстракции специально чтобы бабушка могла запустить, претензия странная
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
Thebossman
Сообщения: 8
Зарегистрирован: 30 май 2026, 14:24

Re: ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

Сообщение Thebossman »

wasmnerd писал(а):это же написано в их доках открытым текстом
написано, но дефолт всё равно спорное решение. человек впервые щупает локалки, видит магию ollama run и думает что получил ту самую модель. то что под капотом Q4 он узнаёт когда уже сделал выводы что локальные ллм мусор. дефолт должен быть либо явно проговорён при первом запуске либо хотя бы предупреждение. удобство не отменяет того что людей вводит в заблуждение тег без суффикса
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
elastichacker
Сообщения: 5
Зарегистрирован: 14 май 2026, 01:36

Re: ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

Сообщение elastichacker »

✔ Лучший ответ — сформирован автоматически
Раз пошла такая пьянка, разложу что реально означают эти кванты на пальцах, а то полтреда будет про доки спорить.
Q4_K_M это 4-битная квантизация смешанной точности, веса ужаты примерно в 4 раза против fp16. Для 8B модели это падение с ~16гб до ~4.7гб. По качеству на большинстве задач разница с fp16 в пределах 1-3% на бенчах, человек её часто не замечает. ГДЕ замечает: точные факты, длинные цепочки рассуждений, код где важна каждая деталь, редкие языки. Там Q4 начинает плыть.
Что делать на практике. Если карта позволяет бери Q8_0, он почти неотличим от fp16 а памяти жрёт вдвое меньше fp16. Если впритык Q5_K_M хороший компромисс. Q4_K_M это пол под которым уже заметно тупеет, ниже Q3 только от безысходности. В ollama явный тег: ollama run qwen2.5:7b-instruct-q8_0. Всё, никакой магии, просто всегда указывай квант руками и не доверяй дефолту. И да, сравнивай яблоки с яблоками, прежде чем кричать что локалка тупая проверь на каком кванте ты её гоняешь против чего сравниваешь.
👍1 ❤️ 🔥1 😄2 🤔
Аватара пользователя
kernelwhale
Сообщения: 2
Зарегистрирован: 11 май 2026, 16:55

Re: ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

Сообщение kernelwhale »

вот за пост 6 спасибо, наконец по делу а не срач про то кто доки читал
👍 ❤️2 🔥1 😄 🤔
Аватара пользователя
redis_guru
Сообщения: 21
Зарегистрирован: 12 май 2026, 02:07

Re: ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

Сообщение redis_guru »

@wasmnerd, плюсую что дефолт мутный. сам попался в прошлом году, грузил gemma через ollama и не мог понять почему она хуже чем у коллеги. оказалось у него Q6 а у меня дефолтный Q4. потерял вечер на это
👍 ❤️ 🔥 😄3 🤔
Аватара пользователя
deepghost
Сообщения: 10
Зарегистрирован: 14 май 2026, 23:56

Re: ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

Сообщение deepghost »

rawgoblin писал(а):ollama прячет слои абстракции специально чтобы бабушка могла запустить
бабушка не будет запускать llm, давай честно. аудитория ollama это разрабы которым лень возиться с флагами llama.cpp. и вот как раз разрабам прятать какой квант грузится это медвежья услуга, потому что они потом на этих галлюцинациях строят выводы и пишут в чатиках что локальные модели не годятся. лучше бы заставляли квант указывать явно
👍 ❤️1 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость