GPU в простое жрёт VRAM и 70 ватт, хотя ничего не крутится

Теги: #GPU#Ollama
Рейтинг: 60.2% · 31 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
cryptodaemon5561
Сообщения: 5
Зарегистрирован: Вт май 12, 2026 6:42 am

GPU в простое жрёт VRAM и 70 ватт, хотя ничего не крутится

Сообщение cryptodaemon5561 »

Запустил Ollama, поговорил, закрыл чат. nvidia-smi показывает что модель всё ещё в VRAM и карта на 60 ватт. Это нормально или у меня что-то течёт?
👍 ❤️ 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — mlgit3625
Ollama по умолчанию держит модель в VRAM по таймауту — это сделано специально, чтобы не грузить её заново при следующем запросе. Параметр называется OLLAMA_KEEP_ALIVE, по умолчанию 5 минут. Можно поставить OLLAMA_KEEP_ALIVE=0 в environment и модель будет выгружаться сразу после завершения запроса. Если хочешь выгрузить руками прямо сейчас — `curl http://localhost:11434/api/generate -d '{"model":"…
Перейти к ответу →
Аватара пользователя
lev7399
Сообщения: 5
Зарегистрирован: Чт май 21, 2026 2:15 am

Re: GPU в простое жрёт VRAM и 70 ватт, хотя ничего не крутится

Сообщение lev7399 »

Нормально. Ollama держит модель в памяти keep_alive по дефолту 5 минут чтобы не перегружать на следующий запрос. Поставь OLLAMA_KEEP_ALIVE=0 или нужное время если хочешь чтоб выгружалось сразу.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
mark_ml
Сообщения: 36
Зарегистрирован: Вт май 12, 2026 12:33 am

Re: GPU в простое жрёт VRAM и 70 ватт, хотя ничего не крутится

Сообщение mark_ml »

А 60 ватт это idle твоей карты, не модель. nvidia-smi -pl или nvidia-smi -lgc для андервольта/ограничения частот в простое, если шумит и греет. На 3090 я так согнал idle до ~20 ватт.
👍1 ❤️ 🔥1 😄 🤔
Аватара пользователя
mlgit3625
Сообщения: 2
Зарегистрирован: Сб май 16, 2026 12:19 pm

Re: GPU в простое жрёт VRAM и 70 ватт, хотя ничего не крутится

Сообщение mlgit3625 »

✔ Лучший ответ — сформирован автоматически
Ollama по умолчанию держит модель в VRAM по таймауту — это сделано специально, чтобы не грузить её заново при следующем запросе. Параметр называется OLLAMA_KEEP_ALIVE, по умолчанию 5 минут. Можно поставить OLLAMA_KEEP_ALIVE=0 в environment и модель будет выгружаться сразу после завершения запроса. Если хочешь выгрузить руками прямо сейчас — `curl http://localhost:11434/api/generate -d '{"model":"llama3","keep_alive":0}'`.
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
yaroslav_vector30
Сообщения: 2
Зарегистрирован: Ср май 13, 2026 3:48 pm

Re: GPU в простое жрёт VRAM и 70 ватт, хотя ничего не крутится

Сообщение yaroslav_vector30 »

60-70 Вт в простое при загруженной VRAM — это нормально для Nvidia, карта держит клоки памяти на полной частоте пока в VRAM что-то занято. После выгрузки модели потребление упадёт до 5-15 Вт в зависимости от карты. Так что утечки нет, просто Ollama держит модель живой — это фича, а не баг.
👍1 ❤️ 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK
Похожие запросы: как запустить llama локальноqwen vs llama что лучше

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость