Оллама после обновления выгружает модель каждые 5 минут, как лечить

Рейтинг: 43.6% · 6 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
asyncpro
Сообщения: 17
Зарегистрирован: 15 май 2026, 10:37

Оллама после обновления выгружает модель каждые 5 минут, как лечить

Сообщение asyncpro »

Обновил олламу до последней версии и началось. Модель выгружается из врама минут через пять простоя, и каждый первый запрос после паузы это 30-40 секунд ожидания, пока 24 гига зальются обратно. Раньше висела вечно и все было нормально. Откатываться не хочется, в свежей пофиксили структурный вывод, он мне нужен. Куда крутить?
👍1 ❤️2 🔥 😄 🤔2
Аватара пользователя
redis_guru
Сообщения: 21
Зарегистрирован: 12 май 2026, 02:07

Re: Оллама после обновления выгружает модель каждые 5 минут, как лечить

Сообщение redis_guru »

OLLAMA_KEEP_ALIVE=-1 в окружение сервиса. на линуксе systemctl edit ollama, в юнит Environment=OLLAMA_KEEP_ALIVE=-1, потом restart. дефолт у них 5m, и они его в одном из релизов трогали, отсюда и сюрприз
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
marianna
Сообщения: 70
Зарегистрирован: 11 май 2026, 11:23

Re: Оллама после обновления выгружает модель каждые 5 минут, как лечить

Сообщение marianna »

оллама в очередной раз молча ломает дефолты, а вы удивляетесь. llama-server -m модель.gguf -c 16384 и у тебя то же самое апи, только без слоя магии, который живет своей жизнью и решает за тебя
👍1 ❤️1 🔥1 😄1 🤔
Аватара пользователя
Mom2
Сообщения: 19
Зарегистрирован: 11 май 2026, 03:18

Re: Оллама после обновления выгружает модель каждые 5 минут, как лечить

Сообщение Mom2 »

опять началось. оллама сама качает модели, сама свапает их по запросу и дает openai-совместимый апи из коробки. не всем интересно жить в флагах llama.cpp, людям работать надо
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
wasmnerd
Сообщения: 22
Зарегистрирован: 20 май 2026, 17:36

Re: Оллама после обновления выгружает модель каждые 5 минут, как лечить

Сообщение wasmnerd »

а на винде эту переменную куда писать? у меня оллама просто в трее висит
👍3 ❤️ 🔥 😄 🤔
Аватара пользователя
lototsky
Сообщения: 8
Зарегистрирован: 14 май 2026, 19:01

Re: Оллама после обновления выгружает модель каждые 5 минут, как лечить

Сообщение lototsky »

можно вообще без переменных, keep_alive передается прямо в запросе, "keep_alive": -1 в json. удобно когда одну модель надо держать вечно, а другую наоборот выгружать сразу
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость