Потерял неделю из-за невоспроизводимого обучения, у всех так с недетерминизмом в torch

haskell_chan

Зафиксировал все сиды, выставил seed на torch numpy random, а две прогонки одного и того же скрипта дают разный val accuracy, расхождение до 1.5 процента. На ревью модель не воспроизводится, заказчик не верит метрикам. Это вообще лечится или с GPU так и живём? torch 2.5, cuda 12.4, одна 4090.

seniorsamurai

одного сида мало. cudnn бенчмарк подбирает алгоритмы недетерминированно, плюс atomics в некоторых ядрах дают разный порядок суммирования флоатов. порядок сложения float меняется, и вот тебе уже другой бит в третьем знаке, который за эпохи раскачивается в проценты

deepghost · Сообщение **deepghost** » 16 май 2026, 23:19

torch.use_deterministic_algorithms(True) ставил? без него всё остальное бесполезно

infern · Сообщение **infern** » 17 май 2026, 00:06

deepghost писал(а):torch.use_deterministic_algorithms(True) ставил?

ставил, оно мне упало с ошибкой что для одного из слоёв нет детерминированной реализации. оказалось это был adaptive pooling, заменил на обычный и пошло. так что да, оно ещё и заставляет переписывать модель местами

proxmoxaddict

Прошёл этот ад когда сдавал модель в банк под аудит, там воспроизводимость это требование, не каприз. Минимальный набор который реально даёт бит в бит на одной железке.

Сиды питона, numpy, torch и cuda все четыре. random.seed, np.random.seed, torch.manual_seed, torch.cuda.manual_seed_all.

Дальше cudnn. torch.backends.cudnn.deterministic = True и torch.backends.cudnn.benchmark = False. Benchmark в True это главный скрытый источник дрейфа, он каждый запуск выбирает быстрейший алгоритм свёртки и они дают чуть разный результат.

torch.use_deterministic_algorithms(True), и переменную окружения CUBLAS_WORKSPACE_CONFIG=:4096:8 обязательно, иначе cublas в детерминированном режиме просто кинет исключение.

DataLoader. num_workers больше нуля без worker_init_fn и без фиксированного generator даёт разный порядок и разную аугментацию. Прокинь generator с сидом в DataLoader и seed_worker в worker_init_fn.

И отдельно, воспроизводимость только в пределах одной и той же GPU, драйвера и версии torch. Перенёс на другую карту или обновил cuda, числа поплывут, это нормально и неизбежно. Цена детерминизма примерно 10-25 процентов скорости обучения, benchmark=False больно бьёт по свёрткам. Поэтому держу два режима, дев гоняю быстро без детерминизма, финальную сдаточную прогонку в полном детерминированном. После этого банк смог воспроизвести метрики у себя бит в бит.

kotlin123 · Сообщение **kotlin123** » 17 май 2026, 05:25

proxmoxaddict писал(а):воспроизводимость только в пределах одной и той же GPU, драйвера и версии torch

вот про это все забывают и потом удивляются. у меня A100 и 4090 на одном коде дают разный лосс на третьем знаке, и это не баг. разная микроархитектура, разные ядра, разный порядок редукции. бит в бит между разным железом не бывает в принципе

kingpaul · Сообщение **kingpaul** » 17 май 2026, 08:24

1.5 процента это многовато для просто недетерминизма имхо. у меня после фиксации остаётся болтанка в районе 0.1-0.2. если у тебя полтора, я бы ещё на дропаут и аугментации посмотрел, может там свой рандом не засижен

GpuGuru · Сообщение **GpuGuru** » 17 май 2026, 11:16

@anonymous плюсую к предыдущему, полтора процента это уже не шум флоатов а скорее незафиксированный источник рандома где-то в пайплайне. скорее всего аугментация или какой-нибудь random split датасета без сида. чистый недетерминизм cuda столько не даёт

Потерял неделю из-за невоспроизводимого обучения, у всех так с недетерминизмом в torch

Потерял неделю из-за невоспроизводимого обучения, у всех так с недетерминизмом в torch

Re: Потерял неделю из-за невоспроизводимого обучения, у всех так с недетерминизмом в torch

Re: Потерял неделю из-за невоспроизводимого обучения, у всех так с недетерминизмом в torch

Re: Потерял неделю из-за невоспроизводимого обучения, у всех так с недетерминизмом в torch

Re: Потерял неделю из-за невоспроизводимого обучения, у всех так с недетерминизмом в torch

Re: Потерял неделю из-за невоспроизводимого обучения, у всех так с недетерминизмом в torch

Re: Потерял неделю из-за невоспроизводимого обучения, у всех так с недетерминизмом в torch

Re: Потерял неделю из-за невоспроизводимого обучения, у всех так с недетерминизмом в torch

Кто сейчас на конференции