Почему loss скачет при обучении трансформера на одной и той же конфигурации

hogan20 · Сообщение **hogan20** » 10 июн 2026, 15:22

Запускаю файнтюн небольшого энкодера на pytorch 2.5, две прогонки с абсолютно одинаковым конфигом дают разный loss на 3-4 эпохе, расхождение уже к концу заметное по eval. Seed зафиксирован везде где знаю: torch.manual_seed, numpy, random, даже PYTHONHASHSEED выставил. Карта одна, A100 в аренде у селектела. Откуда берётся рандом если всё засидено. Хочу понять это норма или у меня где-то течёт.

twoos60 · Сообщение **twoos60** » 10 июн 2026, 16:11

seed это не вся история. На gpu куча операций недетерминированы по дефолту, atomicAdd в свёртках и в некоторых reduce кернелах даёт разный порядок суммирования флоатов, а float сложение не ассоциативно. Поставь torch.use_deterministic_algorithms(True) и переменную CUBLAS_WORKSPACE_CONFIG=:4096:8, тогда часть кернелов переключится на детерминированные варианты или кинет ошибку что детерминированной версии нет. Готовься что станет медленнее процентов на 10-20.

johnmal · Сообщение **johnmal** » 10 июн 2026, 21:02

а dataloader с num_workers>0 ты засидил? worker_init_fn никто не помнит, а там свой рандом на аугментациях

Marijuan · Сообщение **Marijuan** » 10 июн 2026, 21:20

twoos60 писал(а):float сложение не ассоциативно

вот это ключевое что народ пропускает. даже на одной карте если порядок редукции плавает, ты получаешь разные младшие биты, а на 4 эпохе они уже разъехались в видимую разницу. детерминизм на гпу это не бесплатно и не всегда полный

smith_zhenya

серьёзно, кто-то ещё ждёт бит в бит от gpu обучения? забей и меряй разброс по 3 сидам, если eval метрика гуляет в пределах шума это твой реальный результат а не цифра с одного запуска

nixos_andy · Сообщение **nixos_andy** » 11 июн 2026, 00:20

smith_zhenya писал(а):меряй разброс по 3 сидам

плюсую, но 3 мало. для статьи мы гоняли 5 сидов и репортили mean плюс std, ревьюеры именно это и просят. один запуск это не результат это анекдот

mparker8 · Сообщение **mparker8** » 11 июн 2026, 03:02

по делу. собери так. 1) torch.use_deterministic_algorithms(True). 2) CUBLAS_WORKSPACE_CONFIG=:4096:8 в окружении до старта python. 3) в dataloader generator с manual_seed плюс worker_init_fn который сидит numpy и random внутри воркера от id. 4) выключи tf32 если хочешь стабильности, torch.backends.cuda.matmul.allow_tf32=False, иначе матмулы режут мантиссу и это ещё источник расхождений. 5) если юзаешь amp, помни что динамический loss scaling сам по себе адаптивный и меняет траекторию, для воспроизводимости фиксируй. после этого два запуска совпадут почти бит в бит на одной карте и одной версии cuda. на другой карте или другом драйвере совпадения не жди, кернелы другие. и да, медленнее будет, у нас вышло минус 15 процентов к скорости эпохи на A100.

grumpylurker

tf32 это прям больное место, мы пол дня искали почему ноут на 3090 и кластер на A100 дают разные числа, оказалось tf32 на ампере по дефолту в матмулах включён и мантисса 10 бит против 23. отключили, числа сошлись, скорость просела

Почему loss скачет при обучении трансформера на одной и той же конфигурации

Почему loss скачет при обучении трансформера на одной и той же конфигурации

Re: Почему loss скачет при обучении трансформера на одной и той же конфигурации

Re: Почему loss скачет при обучении трансформера на одной и той же конфигурации

Re: Почему loss скачет при обучении трансформера на одной и той же конфигурации

Re: Почему loss скачет при обучении трансформера на одной и той же конфигурации

Re: Почему loss скачет при обучении трансформера на одной и той же конфигурации

Re: Почему loss скачет при обучении трансформера на одной и той же конфигурации

Re: Почему loss скачет при обучении трансформера на одной и той же конфигурации

Кто сейчас на конференции