Почему обучение в PyTorch не воспроизводится даже с фиксированным seed

kungsan · Сообщение **kungsan** » 10 май 2026, 23:35

Третий день бьюсь, не могу получить одинаковый результат двух прогонов одной и той же сетки на PyTorch 2.6, хотя сид зафиксирован везде где можно. torch.manual_seed(42), numpy seed, random seed, даже PYTHONHASHSEED выставил. Loss на первой эпохе совпадает до пятого знака, а к десятой эпохе расхождение в accuracy уже 1.5 процента. Карта A100, CUDA 12.4. Куда копать, что ещё недетерминированного осталось?

jpearce · Сообщение **jpearce** » 11 май 2026, 04:05

ты torch.use_deterministic_algorithms(True) ставил? без него часть cudnn кернелов плавает

trasche10 · Сообщение **trasche10** » 11 май 2026, 06:30

И CUBLAS_WORKSPACE_CONFIG=:4096:8 в окружение не забудь, иначе матмулы на куде будут гулять. Без этой переменной use_deterministic_algorithms вообще кинет ошибку на некоторых операциях.

delphin · Сообщение **delphin** » 11 май 2026, 10:39

kungsan писал(а):Loss на первой эпохе совпадает до пятого знака, а к десятой эпохе расхождение в accuracy уже 1.5 процента

это классика накопления ошибки. Раз первая эпоха почти бит в бит, значит сам сид ок, а вот дальше всплывает недетерминизм в отдельных операциях которые накапливаются. Главные подозреваемые по порядку: 1) atomics в cudnn (тот же backward у некоторых сверток и pooling использует atomicAdd, порядок суммирования плавает), 2) DataLoader с num_workers > 0 без worker_init_fn, у тебя воркеры свои сиды разыгрывают. Ставь так: torch.use_deterministic_algorithms(True, warn_only=False), env CUBLAS_WORKSPACE_CONFIG=:4096:8, в DataLoader дай generator с фиксированным сидом и worker_init_fn который выставляет numpy/random сид от worker id. И проверь нет ли F.interpolate или scatter_add в модели, они до сих пор недетерминированы на куде. После этого у меня resnet50 на двух прогонах сходился бит в бит, разница ровно ноль.

jamesusa · Сообщение **jamesusa** » 11 май 2026, 12:08

@автор а зачем тебе вообще бит в бит? если у тебя 1.5 процента разброс от сида ломает выводы эксперимента, то у тебя проблема не в детерминизме а в том что модель шумная и сравнения невалидные. Лучше гоняй 3-5 сидов и смотри среднее с разбросом

docker13 · Сообщение **docker13** » 11 май 2026, 16:05

jamesusa писал(а):если у тебя 1.5 процента разброс от сида ломает выводы эксперимента, то у тебя проблема не в детерминизме а в том что модель шумная

не согласен что это всегда так. Когда катишь в прод и тебе аудит требует воспроизвести ровно ту же модель что год назад зарелизили, никакое среднее по сидам не прокатит. Нужна именно битовая воспроизводимость артефакта. Это не про науку а про регуляторку, у нас в банке именно так

sleepyblueteam

num_workers сколько? ставь 0 для теста, сразу поймешь воркеры виноваты или нет

ransome · Сообщение **ransome** » 11 май 2026, 20:39

кстати на multi-gpu через DDP вообще забей про полный детерминизм, allreduce порядок редукции по картам не гарантирован если у тебя async. Там только ddp с фиксированным порядком и то не всегда

Почему обучение в PyTorch не воспроизводится даже с фиксированным seed

Почему обучение в PyTorch не воспроизводится даже с фиксированным seed

Re: Почему обучение в PyTorch не воспроизводится даже с фиксированным seed

Re: Почему обучение в PyTorch не воспроизводится даже с фиксированным seed

Re: Почему обучение в PyTorch не воспроизводится даже с фиксированным seed

Re: Почему обучение в PyTorch не воспроизводится даже с фиксированным seed

Re: Почему обучение в PyTorch не воспроизводится даже с фиксированным seed

Re: Почему обучение в PyTorch не воспроизводится даже с фиксированным seed

Re: Почему обучение в PyTorch не воспроизводится даже с фиксированным seed

Кто сейчас на конференции