ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

asynclover · Сообщение **asynclover** » 18 май 2026, 10:58

Прожарка для тех кто сидит на ollama и не лезет под капот: когда ты пишешь ollama run llama3.1:8b он по умолчанию тянет Q4_K_M, а не полную модель. Многие об этом не знают и потом удивляются почему локальная моделька тупее чем та же на которую смотрели в бенчмарках. Полгода рекомендовал ollama новичкам как самый простой вход, а потом разбирал почему у человека модель галлюцинирует на простых вопросах, оказалось он сравнивал свой Q4 с облачным fp16 и считал что это одна и та же модель. Тег у модели надо смотреть всегда, llama3.1:8b-fp16 и llama3.1:8b это небо и земля по памяти и по качеству.

wasmnerd · Сообщение **wasmnerd** » 18 май 2026, 12:02

ну так это же написано в их доках открытым текстом, дефолт всегда квант. кто не читает доки тот сам себе злодей

rawgoblin · Сообщение **rawgoblin** » 18 май 2026, 14:13

honestly ollama для меня это про удобство а не про контроль. нужен контроль бери llama.cpp напрямую или llama-server и сам решай какой gguf грузить. ollama прячет слои абстракции специально чтобы бабушка могла запустить, претензия странная

Thebossman · Сообщение **Thebossman** » 18 май 2026, 15:06

wasmnerd писал(а):это же написано в их доках открытым текстом

написано, но дефолт всё равно спорное решение. человек впервые щупает локалки, видит магию ollama run и думает что получил ту самую модель. то что под капотом Q4 он узнаёт когда уже сделал выводы что локальные ллм мусор. дефолт должен быть либо явно проговорён при первом запуске либо хотя бы предупреждение. удобство не отменяет того что людей вводит в заблуждение тег без суффикса

elastichacker

Раз пошла такая пьянка, разложу что реально означают эти кванты на пальцах, а то полтреда будет про доки спорить.
Q4_K_M это 4-битная квантизация смешанной точности, веса ужаты примерно в 4 раза против fp16. Для 8B модели это падение с ~16гб до ~4.7гб. По качеству на большинстве задач разница с fp16 в пределах 1-3% на бенчах, человек её часто не замечает. ГДЕ замечает: точные факты, длинные цепочки рассуждений, код где важна каждая деталь, редкие языки. Там Q4 начинает плыть.
Что делать на практике. Если карта позволяет бери Q8_0, он почти неотличим от fp16 а памяти жрёт вдвое меньше fp16. Если впритык Q5_K_M хороший компромисс. Q4_K_M это пол под которым уже заметно тупеет, ниже Q3 только от безысходности. В ollama явный тег: ollama run qwen2.5:7b-instruct-q8_0. Всё, никакой магии, просто всегда указывай квант руками и не доверяй дефолту. И да, сравнивай яблоки с яблоками, прежде чем кричать что локалка тупая проверь на каком кванте ты её гоняешь против чего сравниваешь.

kernelwhale · Сообщение **kernelwhale** » 18 май 2026, 17:46

вот за пост 6 спасибо, наконец по делу а не срач про то кто доки читал

redis_guru · Сообщение **redis_guru** » 18 май 2026, 18:22

@wasmnerd, плюсую что дефолт мутный. сам попался в прошлом году, грузил gemma через ollama и не мог понять почему она хуже чем у коллеги. оказалось у него Q6 а у меня дефолтный Q4. потерял вечер на это

deepghost · Сообщение **deepghost** » 18 май 2026, 22:38

rawgoblin писал(а):ollama прячет слои абстракции специально чтобы бабушка могла запустить

бабушка не будет запускать llm, давай честно. аудитория ollama это разрабы которым лень возиться с флагами llama.cpp. и вот как раз разрабам прятать какой квант грузится это медвежья услуга, потому что они потом на этих галлюцинациях строят выводы и пишут в чатиках что локальные модели не годятся. лучше бы заставляли квант указывать явно

ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

Re: ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

Re: ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

Re: ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

Re: ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

Re: ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

Re: ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

Re: ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16

Кто сейчас на конференции