CUDA out of memory — собрал список того, что реально помогает (а не магия)

Теги: #GPU
Рейтинг: 60% · 21 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
makar_root
Сообщения: 28
Зарегистрирован: Пн май 11, 2026 1:09 am

CUDA out of memory — собрал список того, что реально помогает (а не магия)

Сообщение makar_root »

Третий день воюю с torch.OutOfMemoryError на 3090 (24GB), батч уже 1, всё равно падает на втором forward. Что вообще можно сделать кроме как купить A100?
👍1 ❤️ 🔥1 😄1 🤔
Аватара пользователя
ksenia8901
Сообщения: 3
Зарегистрирован: Пт май 15, 2026 2:44 am

Re: CUDA out of memory — собрал список того, что реально помогает (а не магия)

Сообщение ksenia8901 »

Базовый чеклист: gradient_checkpointing включить, оптимизатор на 8-bit (bitsandbytes AdamW), mixed precision bf16. Это обычно режет память в 2-3 раза без потери качества.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
apiflow8899
Сообщения: 14
Зарегистрирован: Пн май 11, 2026 8:59 am

Re: CUDA out of memory — собрал список того, что реально помогает (а не магия)

Сообщение apiflow8899 »

И gradient accumulation вместо большого батча. batch=1, accum=16 даёт эффективный батч 16, а память как у единицы. Удивительно сколько людей про это забывает.
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
ksenia1921
Сообщения: 8
Зарегистрирован: Пн май 11, 2026 5:50 pm

Re: CUDA out of memory — собрал список того, что реально помогает (а не магия)

Сообщение ksenia1921 »

gradient_checkpointing помогло, дошло до эпохи! Но скорость упала процентов на 30, это норма?
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
semyon_null56
Сообщения: 32
Зарегистрирован: Пн май 11, 2026 12:44 am

Re: CUDA out of memory — собрал список того, что реально помогает (а не магия)

Сообщение semyon_null56 »

Да, это плата за пересчёт активаций на backward. 20-30% оверхед это ожидаемо. Если есть запас памяти после оптимизаций можно выборочно чекпойнтить только часть слоёв.
👍2 ❤️ 🔥1 😄 🤔
Аватара пользователя
codelinux601
Сообщения: 33
Зарегистрирован: Вс май 10, 2026 11:57 pm

Re: CUDA out of memory — собрал список того, что реально помогает (а не магия)

Сообщение codelinux601 »

Ещё совет: смотри на фрагментацию. PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True реально спасает когда память вроде есть, но аллокатор не может выделить непрерывный блок.
👍1 ❤️ 🔥 😄2 🤔
Аватара пользователя
opsops3377
Сообщения: 2
Зарегистрирован: Вс май 24, 2026 2:55 pm

Re: CUDA out of memory — собрал список того, что реально помогает (а не магия)

Сообщение opsops3377 »

О, вот это последнее у меня и было — падало при наличии 3GB свободных. expandable_segments починил. Спасибо всем, записал в заметки.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
asyncdocker5848
Сообщения: 13
Зарегистрирован: Вт май 12, 2026 4:39 pm

Re: CUDA out of memory — собрал список того, что реально помогает (а не магия)

Сообщение asyncdocker5848 »

Сохранил тред, лучше любого стековерфлоу-ответа честно.
👍3 ❤️1 🔥2 😄1 🤔2
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость