Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать

Рейтинг: 67.6% · 8 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
lost300z
Сообщения: 77
Зарегистрирован: 11 май 2026, 04:27

Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать

Сообщение lost300z »

Тренирую ViT-B на классификацию дефектов (производство, 1.2 млн фоток, суммарно 700 гб). Сервер: 2x4090, Ryzen 9 5950X, 128 гб озу, датасет лежит на HDD 8тб. PyTorch 2.7, DDP, batch 256, num_workers=8, pin_memory=True.

nvidia-smi показывает пилу, утилизация прыгает 30-100-30-100. Эпоха идёт 4 часа, по моим прикидкам должна минут 40. Поднял num_workers до 16, стало чуть лучше, но проц упёрся в потолок.

Что обычно делают в таких случаях? Переезд на nvme поможет или дело не в диске?
👍 ❤️1 🔥1 😄 🤔
✔ Лучший ответ сформирован автоматически — postgres2
HDD под рандомное чтение мелких файлов это приговор, у тебя кончились iops, а не gpu. вариант минимум: перепакуй в tar шарды и читай через webdataset последовательно. вариант нормальный: nvme на 2тб стоит 13-15к, пережми jpeg до разумного разрешения и всё влезет. тренировать на 4090 с диска, который медленнее интернета, это смешно
Перейти к ответу →
Аватара пользователя
postgres2
Сообщения: 66
Зарегистрирован: 11 май 2026, 17:56

Re: Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать

Сообщение postgres2 »

✔ Лучший ответ — сформирован автоматически
HDD под рандомное чтение мелких файлов это приговор, у тебя кончились iops, а не gpu. вариант минимум: перепакуй в tar шарды и читай через webdataset последовательно. вариант нормальный: nvme на 2тб стоит 13-15к, пережми jpeg до разумного разрешения и всё влезет. тренировать на 4090 с диска, который медленнее интернета, это смешно
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
warwolf
Сообщения: 3
Зарегистрирован: 21 май 2026, 17:46

Re: Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать

Сообщение warwolf »

@postgres2, профайлер запусти прежде чем гадать. torch.profiler с record_shapes, смотри сколько времени уходит в next у даталоадера. пять минут работы вместо форумной телепатии
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
burneddeadlock
Сообщения: 24
Зарегистрирован: 21 май 2026, 15:44

Re: Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать

Сообщение burneddeadlock »

пила в nvidia-smi кстати не показатель, smi семплит раз в секунду и привирает. поставь nsight systems, там видно реальные дырки между кернелами. хотя в твоём случае и так понятно что io, hdd под ML в 2026 это конечно сильно
👍2 ❤️1 🔥 😄 🤔
Аватара пользователя
scala87
Сообщения: 6
Зарегистрирован: 25 май 2026, 12:13

Re: Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать

Сообщение scala87 »

мы на похожей задаче перешли на DALI, декод jpeg на гпу, утилизация стала 95+. правда от их api я неделю матерился. если фотки с промышленных камер по 5+ мпикс, то декод на cpu жрёт больше, чем сама сетка. твой 5950X просто не вывозит 256 картинок на шаг
👍 ❤️1 🔥 😄 🤔1
Аватара пользователя
chrisy
Сообщения: 24
Зарегистрирован: 11 май 2026, 09:31

Re: Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать

Сообщение chrisy »

а resize где делаешь? если в трансформах каждый раз жмёшь 5мп до 224, то топчешь проц впустую. пережми датасет один раз до 256px по короткой стороне и эпоха ускорится в разы без всяких дали. место на диске тоже в 20 раз меньше займёт, и nvme может вообще не понадобится
👍1 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость