Недетерминизм в pytorch, один и тот же код дает разный результат

archmaster · Сообщение **archmaster** » 13 июн 2026, 04:16

Один и тот же скрипт обучения на pytorch 2.4 даёт разный лосс от запуска к запуску, хотя seed зафиксировал везде. Разброс не критичный, финальная accuracy гуляет на 0.3-0.5%, но когда сравниваешь два эксперимента и не понимаешь, это улучшение от твоей правки или просто шум, бесит до трясучки. Как добиться полной воспроизводимости и стоит ли вообще?

regexlover · Сообщение **regexlover** » 13 июн 2026, 07:04

плюсую к сидам-ансамблю. одна цифра это не результат, это анекдот

fpga87 · Сообщение **fpga87** » 13 июн 2026, 07:05

@автор собери всё в одну функцию и зови в начале:
import torch, numpy as np, random, os
def seed_all(s=42):
random.seed(s); np.random.seed(s); torch.manual_seed(s); torch.cuda.manual_seed_all(s)
os.environ['CUBLAS_WORKSPACE_CONFIG']=':4096:8'
torch.backends.cudnn.deterministic=True; torch.backends.cudnn.benchmark=False
torch.use_deterministic_algorithms(True, warn_only=True)
warn_only=True важно, иначе на atomic-операциях типа scatter_add или некоторых пулингов оно кинет исключение и ты будешь переписывать слои. дальше DataLoader делай так: g=torch.Generator(); g.manual_seed(s); и передавай generator=g, плюс worker_init_fn который сидит каждый воркер. после этого у меня лосс совпадает побитово между запусками на одной и той же карте. но! на другой видяхе или другой версии cuda числа поедут, детерминизм он только в пределах одного железа и окружения. так что для сравнения экспериментов держи фиксированную машину или контейнер.

kingpaul · Сообщение **kingpaul** » 13 июн 2026, 07:06

archmaster писал(а):стоит ли вообще

честный ответ нет, не стоит гнаться за полным детерминизмом. ты потеряешь процентов 10-20 скорости на детерминированных ядрах, а проблему сравнения не решишь по-настоящему. правильно гонять каждый эксперимент на 3-5 сидах и смотреть на среднее и разброс. если твоя правка даёт +0.4% а разброс между сидами 0.5%, то твоё улучшение это шум и точка, никакой детерминизм тут не поможет, он просто заморозит тебя на одной случайной точке.

gpu2000 · Сообщение **gpu2000** » 13 июн 2026, 07:11

@archmaster, torch.manual_seed мало. нужно ещё np.random.seed, random.seed, и главное torch.use_deterministic_algorithms(True) плюс переменная окружения CUBLAS_WORKSPACE_CONFIG=:4096:8 иначе на cublas ругнётся.

rsal56 · Сообщение **rsal56** » 13 июн 2026, 07:24

@kingpaul, не забудь про dataloader, num_workers с шафлом тоже источник. нужен generator с сидом и worker_init_fn. без этого порядок батчей пляшет.

timur12 · Сообщение **timur12** » 13 июн 2026, 07:31

fpga87 писал(а):на другой видяхе или другой версии cuda числа поедут

вот это народ постоянно забывает. человек добился детерминизма локально на 4090, выкатил на A100 в облаке и удивляется что цифры другие. железо часть сида, по сути.

Недетерминизм в pytorch, один и тот же код дает разный результат

Недетерминизм в pytorch, один и тот же код дает разный результат

Re: Недетерминизм в pytorch, один и тот же код дает разный результат

Re: Недетерминизм в pytorch, один и тот же код дает разный результат

Re: Недетерминизм в pytorch, один и тот же код дает разный результат

Re: Недетерминизм в pytorch, один и тот же код дает разный результат

Re: Недетерминизм в pytorch, один и тот же код дает разный результат

Re: Недетерминизм в pytorch, один и тот же код дает разный результат

Кто сейчас на конференции