Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать

lost300z · Сообщение **lost300z** » 22 май 2026, 16:32

Тренирую ViT-B на классификацию дефектов (производство, 1.2 млн фоток, суммарно 700 гб). Сервер: 2x4090, Ryzen 9 5950X, 128 гб озу, датасет лежит на HDD 8тб. PyTorch 2.7, DDP, batch 256, num_workers=8, pin_memory=True.

nvidia-smi показывает пилу, утилизация прыгает 30-100-30-100. Эпоха идёт 4 часа, по моим прикидкам должна минут 40. Поднял num_workers до 16, стало чуть лучше, но проц упёрся в потолок.

Что обычно делают в таких случаях? Переезд на nvme поможет или дело не в диске?

postgres2 · Сообщение **postgres2** » 22 май 2026, 16:52

HDD под рандомное чтение мелких файлов это приговор, у тебя кончились iops, а не gpu. вариант минимум: перепакуй в tar шарды и читай через webdataset последовательно. вариант нормальный: nvme на 2тб стоит 13-15к, пережми jpeg до разумного разрешения и всё влезет. тренировать на 4090 с диска, который медленнее интернета, это смешно

warwolf · Сообщение **warwolf** » 22 май 2026, 20:30

@postgres2, профайлер запусти прежде чем гадать. torch.profiler с record_shapes, смотри сколько времени уходит в next у даталоадера. пять минут работы вместо форумной телепатии

burneddeadlock

пила в nvidia-smi кстати не показатель, smi семплит раз в секунду и привирает. поставь nsight systems, там видно реальные дырки между кернелами. хотя в твоём случае и так понятно что io, hdd под ML в 2026 это конечно сильно

scala87 · Сообщение **scala87** » 22 май 2026, 23:39

мы на похожей задаче перешли на DALI, декод jpeg на гпу, утилизация стала 95+. правда от их api я неделю матерился. если фотки с промышленных камер по 5+ мпикс, то декод на cpu жрёт больше, чем сама сетка. твой 5950X просто не вывозит 256 картинок на шаг

chrisy · Сообщение **chrisy** » 23 май 2026, 03:48

а resize где делаешь? если в трансформах каждый раз жмёшь 5мп до 224, то топчешь проц впустую. пережми датасет один раз до 256px по короткой стороне и эпоха ускорится в разы без всяких дали. место на диске тоже в 20 раз меньше займёт, и nvme может вообще не понадобится

Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать

Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать

Re: Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать

Re: Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать

Re: Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать

Re: Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать

Re: Утилизация GPU скачет 30-100%, тренировка ViT еле ползёт. куда копать

Кто сейчас на конференции