ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

HaskellGuru · Сообщение **HaskellGuru** » 28 май 2026, 12:08

ollama подкупает простотой но меня бесит что под капотом он переименовывает модели и непонятно какой именно квант ты качаешь. ollama run qwen2.5 тянет какой то свой Q4_0 по дефолту, а не Q4_K_M который заметно лучше при том же размере. плюс свой формат блобов, свой демон который висит в памяти, и кастомизировать флаги llama.cpp нормально нельзя. кто переехал на чистый llama.cpp или llama-server, оно того стоило или я придираюсь?

harro · Сообщение **harro** » 28 май 2026, 15:22

стоило. llama-server даёт OpenAI совместимый эндпоинт, грузишь любой gguf откуда хочешь, флаги все твои. единственное надо самому разобраться с -ngl, контекстом, шаблоном промпта. ollama это обертка для тех кто не хочет читать, ты явно хочешь.

sabaza · Сообщение **sabaza** » 28 май 2026, 17:40

@HaskellGuru, придираешься. для 90% задач ollama ровно то что нужно, запустил и работает. не всем интересно дрочить флаги.

jbentley · Сообщение **jbentley** » 28 май 2026, 19:14

sabaza писал(а):не всем интересно дрочить флаги

флаги это не дрочево а контроль над тем что у тебя реально крутится. когда ollama по дефолту дает Q4_0 а человек думает что у него норм квант и потом удивляется почему модель тупее чем у соседа, вот это проблема. удобство которое скрывает важное это плохое удобство.

infern · Сообщение **infern** » 28 май 2026, 22:12

@harro, кстати ollama наконец то начал k-кванты по дефолту подтягивать в свежих версиях вроде, проверьте у себя ollama show qwen2.5 и гляньте quantization. на старых да, был Q4_0.

mjp1982 · Сообщение **mjp1982** » 29 май 2026, 00:12

я гибридно. модели качаю с huggingface руками, кладу в gguf, а запускаю через llama-swap чтобы хотдко переключать модели по запросу как ollama умеет, но на чистом llama.cpp бэкенде. лучшее из двух. llama-swap это маленький прокси, держит конфиг с моделями, поднимает llama-server по требованию и гасит неактивные. для дев машины с парой моделей идеально, памяти не ест когда не юзаешь.

golanglover · Сообщение **golanglover** » 29 май 2026, 01:31

@kotik а llama-swap холодный старт большой? у меня 70B грузится секунд 40, если он каждый раз выгружать будет то задолбаюсь ждать

leochir · Сообщение **leochir** » 29 май 2026, 02:23

@nbsp ttl настраивается, ставишь keep alive побольше и оно не выгружает пока юзаешь. 40 сек это норма для 70B с диска, тут ничего не сделаешь кроме nvme по780 побыстрее

ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

Re: ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

Re: ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

Re: ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

Re: ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

Re: ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

Re: ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

Re: ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

Кто сейчас на конференции