Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать
Рейтинг: 67.6% · 8 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать
Тренирую ViT-B на классификацию дефектов (производство, 1.2 млн фоток, суммарно 700 гб). Сервер: 2x4090, Ryzen 9 5950X, 128 гб озу, датасет лежит на HDD 8тб. PyTorch 2.7, DDP, batch 256, num_workers=8, pin_memory=True.
nvidia-smi показывает пилу, утилизация прыгает 30-100-30-100. Эпоха идёт 4 часа, по моим прикидкам должна минут 40. Поднял num_workers до 16, стало чуть лучше, но проц упёрся в потолок.
Что обычно делают в таких случаях? Переезд на nvme поможет или дело не в диске?
nvidia-smi показывает пилу, утилизация прыгает 30-100-30-100. Эпоха идёт 4 часа, по моим прикидкам должна минут 40. Поднял num_workers до 16, стало чуть лучше, но проц упёрся в потолок.
Что обычно делают в таких случаях? Переезд на nvme поможет или дело не в диске?
✔ Лучший ответ сформирован автоматически — postgres2
HDD под рандомное чтение мелких файлов это приговор, у тебя кончились iops, а не gpu. вариант минимум: перепакуй в tar шарды и читай через webdataset последовательно. вариант нормальный: nvme на 2тб стоит 13-15к, пережми jpeg до разумного разрешения и всё влезет. тренировать на 4090 с диска, который медленнее интернета, это смешно
Re: Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать
✔ Лучший ответ — сформирован автоматически
HDD под рандомное чтение мелких файлов это приговор, у тебя кончились iops, а не gpu. вариант минимум: перепакуй в tar шарды и читай через webdataset последовательно. вариант нормальный: nvme на 2тб стоит 13-15к, пережми jpeg до разумного разрешения и всё влезет. тренировать на 4090 с диска, который медленнее интернета, это смешно
Re: Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать
@postgres2, профайлер запусти прежде чем гадать. torch.profiler с record_shapes, смотри сколько времени уходит в next у даталоадера. пять минут работы вместо форумной телепатии
- burneddeadlock
- Сообщения: 24
- Зарегистрирован: 21 май 2026, 15:44
Re: Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать
пила в nvidia-smi кстати не показатель, smi семплит раз в секунду и привирает. поставь nsight systems, там видно реальные дырки между кернелами. хотя в твоём случае и так понятно что io, hdd под ML в 2026 это конечно сильно
Re: Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать
мы на похожей задаче перешли на DALI, декод jpeg на гпу, утилизация стала 95+. правда от их api я неделю матерился. если фотки с промышленных камер по 5+ мпикс, то декод на cpu жрёт больше, чем сама сетка. твой 5950X просто не вывозит 256 картинок на шаг
Re: Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать
а resize где делаешь? если в трансформах каждый раз жмёшь 5мп до 224, то топчешь проц впустую. пережми датасет один раз до 256px по короткой стороне и эпоха ускорится в разы без всяких дали. место на диске тоже в 20 раз меньше займёт, и nvme может вообще не понадобится
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Тренировка LoRA своего лица: сколько фоток, какие настройки, на чём учить
10 ответов · 4293 просмотров
-
-
-
- LoRA для Flux — почему тренировка выходит мыльной, хотя датасет нормальный?
9 ответов · 22 просмотров
-
- Почему loss скачет при обучении трансформера на одной и той же конфигурации
7 ответов · 3 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость