Обновил олламу до последней версии и началось. Модель выгружается из врама минут через пять простоя, и каждый первый запрос после паузы это 30-40 секунд ожидания, пока 24 гига зальются обратно. Раньше висела вечно и все было нормально. Откатываться не хочется, в свежей пофиксили структурный вывод, он мне нужен. Куда крутить?
OLLAMA_KEEP_ALIVE=-1 в окружение сервиса. на линуксе systemctl edit ollama, в юнит Environment=OLLAMA_KEEP_ALIVE=-1, потом restart. дефолт у них 5m, и они его в одном из релизов трогали, отсюда и сюрприз
оллама в очередной раз молча ломает дефолты, а вы удивляетесь. llama-server -m модель.gguf -c 16384 и у тебя то же самое апи, только без слоя магии, который живет своей жизнью и решает за тебя
опять началось. оллама сама качает модели, сама свапает их по запросу и дает openai-совместимый апи из коробки. не всем интересно жить в флагах llama.cpp, людям работать надо
можно вообще без переменных, keep_alive передается прямо в запросе, "keep_alive": -1 в json. удобно когда одну модель надо держать вечно, а другую наоборот выгружать сразу