ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16
Рейтинг: 43.6% · 6 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- asynclover
- Сообщения: 70
- Зарегистрирован: 13 май 2026, 04:35
ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16
Прожарка для тех кто сидит на ollama и не лезет под капот: когда ты пишешь ollama run llama3.1:8b он по умолчанию тянет Q4_K_M, а не полную модель. Многие об этом не знают и потом удивляются почему локальная моделька тупее чем та же на которую смотрели в бенчмарках. Полгода рекомендовал ollama новичкам как самый простой вход, а потом разбирал почему у человека модель галлюцинирует на простых вопросах, оказалось он сравнивал свой Q4 с облачным fp16 и считал что это одна и та же модель. Тег у модели надо смотреть всегда, llama3.1:8b-fp16 и llama3.1:8b это небо и земля по памяти и по качеству.
✔ Лучший ответ сформирован автоматически — elastichacker
Раз пошла такая пьянка, разложу что реально означают эти кванты на пальцах, а то полтреда будет про доки спорить. Q4_K_M это 4-битная квантизация смешанной точности, веса ужаты примерно в 4 раза против fp16. Для 8B модели это падение с ~16гб до ~4.7гб. По качеству на большинстве задач разница с fp16 в пределах 1-3% на бенчах, человек её часто не замечает. ГДЕ замечает: точные факты, длинные цепоч…
Re: ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16
honestly ollama для меня это про удобство а не про контроль. нужен контроль бери llama.cpp напрямую или llama-server и сам решай какой gguf грузить. ollama прячет слои абстракции специально чтобы бабушка могла запустить, претензия странная
- Thebossman
- Сообщения: 8
- Зарегистрирован: 30 май 2026, 14:24
Re: ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16
написано, но дефолт всё равно спорное решение. человек впервые щупает локалки, видит магию ollama run и думает что получил ту самую модель. то что под капотом Q4 он узнаёт когда уже сделал выводы что локальные ллм мусор. дефолт должен быть либо явно проговорён при первом запуске либо хотя бы предупреждение. удобство не отменяет того что людей вводит в заблуждение тег без суффиксаwasmnerd писал(а):это же написано в их доках открытым текстом
- elastichacker
- Сообщения: 5
- Зарегистрирован: 14 май 2026, 01:36
Re: ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16
✔ Лучший ответ — сформирован автоматически
Раз пошла такая пьянка, разложу что реально означают эти кванты на пальцах, а то полтреда будет про доки спорить.
Q4_K_M это 4-битная квантизация смешанной точности, веса ужаты примерно в 4 раза против fp16. Для 8B модели это падение с ~16гб до ~4.7гб. По качеству на большинстве задач разница с fp16 в пределах 1-3% на бенчах, человек её часто не замечает. ГДЕ замечает: точные факты, длинные цепочки рассуждений, код где важна каждая деталь, редкие языки. Там Q4 начинает плыть.
Что делать на практике. Если карта позволяет бери Q8_0, он почти неотличим от fp16 а памяти жрёт вдвое меньше fp16. Если впритык Q5_K_M хороший компромисс. Q4_K_M это пол под которым уже заметно тупеет, ниже Q3 только от безысходности. В ollama явный тег: ollama run qwen2.5:7b-instruct-q8_0. Всё, никакой магии, просто всегда указывай квант руками и не доверяй дефолту. И да, сравнивай яблоки с яблоками, прежде чем кричать что локалка тупая проверь на каком кванте ты её гоняешь против чего сравниваешь.
Q4_K_M это 4-битная квантизация смешанной точности, веса ужаты примерно в 4 раза против fp16. Для 8B модели это падение с ~16гб до ~4.7гб. По качеству на большинстве задач разница с fp16 в пределах 1-3% на бенчах, человек её часто не замечает. ГДЕ замечает: точные факты, длинные цепочки рассуждений, код где важна каждая деталь, редкие языки. Там Q4 начинает плыть.
Что делать на практике. Если карта позволяет бери Q8_0, он почти неотличим от fp16 а памяти жрёт вдвое меньше fp16. Если впритык Q5_K_M хороший компромисс. Q4_K_M это пол под которым уже заметно тупеет, ниже Q3 только от безысходности. В ollama явный тег: ollama run qwen2.5:7b-instruct-q8_0. Всё, никакой магии, просто всегда указывай квант руками и не доверяй дефолту. И да, сравнивай яблоки с яблоками, прежде чем кричать что локалка тупая проверь на каком кванте ты её гоняешь против чего сравниваешь.
- kernelwhale
- Сообщения: 2
- Зарегистрирован: 11 май 2026, 16:55
- redis_guru
- Сообщения: 21
- Зарегистрирован: 12 май 2026, 02:07
Re: ollama тихо качает модели в Q4 а ты думаешь что у тебя fp16
бабушка не будет запускать llm, давай честно. аудитория ollama это разрабы которым лень возиться с флагами llama.cpp. и вот как раз разрабам прятать какой квант грузится это медвежья услуга, потому что они потом на этих галлюцинациях строят выводы и пишут в чатиках что локальные модели не годятся. лучше бы заставляли квант указывать явноrawgoblin писал(а):ollama прячет слои абстракции специально чтобы бабушка могла запустить
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Ollama vs llama.cpp vs vLLM - что выбрать в 2026, запутался окончательно
10 ответов · 773 просмотров
-
-
-
-
- Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?
6 ответов · 21 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость