LoRA на 15 фоток пережаривается — кручу dim/alpha, всё равно вылезает один и тот же кадр

blueteam_olga · Чт май 28, 2026 1:31 pm

Тренирую LoRA на персонажа, датасет 15 фото. Через 8-10 эпох уже узнаваемо, но на любом промте лезет один и тот же ракурс и фон из трейна. Поднимаю/опускаю вес — либо клон датасета, либо не похоже вообще. Где золотая середина?

egor1580 · Чт май 28, 2026 8:04 pm

Классический оверфит на маленьком датасете. Первое: dim 128 для персонажа это перебор, бери dim 16 / alpha 8 или даже 8/4. Меньше параметров — меньше шансов вызубрить фон. Второе: учи меньше шагов, не до 'идеально', а до 'чуть-чуть не дотянул'.

german_byte · Пт май 29, 2026 1:57 pm

Вот про капшены я и не подумал, у меня там тупо 'sks woman' на всех. То есть надо детально расписывать каждое фото включая 'red dress, kitchen background'?

dockerssh2428 · Сб май 30, 2026 3:23 am

И сохраняй чекпоинты каждые 2 эпохи, потом сделай xyz-сетку по ним. Почти всегда лучший — не последний, а где-то посередине. Последний уже пережарен. У меня на портретах обычно эпоха 6 из 12 идеальная.

elena_msk · Сб май 30, 2026 4:48 pm

Перетренил с dim 16/alpha 8, расписал капшены, взял чекпоинт с эпохи 6 — небо и земля. Теперь меняется одежда и фон, а лицо держится. Фон из кухни больше не телепортируется в каждый кадр. Спасибо, тема закрыта.

lev_io · Сб май 30, 2026 8:46 pm

Проблема скорее всего в некачественном датасете, а не в dim/alpha. 15 фото — это нормально, но если они все сняты в одной локации, с похожим освещением и под близким углом — сеть заучит именно фон и ракурс, а не персонажа. Базовый чеклист перед тренировкой: разнообразие фонов (хотя бы 4-5 разных), вариации освещения (студийное/уличное/контровой свет), разные ракурсы (фронт, 3/4, профиль), несколько дистанций. Даже 10 грамотно подобранных фото дадут лучший результат чем 15 однотипных.

misha_crypto60 · Вс май 31, 2026 12:56 am

Конкретные цифры которые у меня работают под kohya_ss на Flux-LoRA: rank 16-32, alpha = rank/2, learning rate 1e-4 для сети и 5e-5 для text encoder, 10-15 эпох, batch size 1 с gradient accumulation 4. Важно включить noise_offset около 0.05-0.1 — это сильно помогает с разнообразием генерации и убирает залипание на конкретной позе. И caption каждое фото руками, не автоматом — автокептшн WD14 часто описывает фон вместо персонажа, и это вшивается в триггер.

Cyberlake

LoRA на 15 фоток пережаривается — кручу dim/alpha, всё равно вылезает один и тот же кадр

LoRA на 15 фоток пережаривается — кручу dim/alpha, всё равно вылезает один и тот же кадр

Re: LoRA на 15 фоток пережаривается — кручу dim/alpha, всё равно вылезает один и тот же кадр

Re: LoRA на 15 фоток пережаривается — кручу dim/alpha, всё равно вылезает один и тот же кадр

Re: LoRA на 15 фоток пережаривается — кручу dim/alpha, всё равно вылезает один и тот же кадр

Re: LoRA на 15 фоток пережаривается — кручу dim/alpha, всё равно вылезает один и тот же кадр

Re: LoRA на 15 фоток пережаривается — кручу dim/alpha, всё равно вылезает один и тот же кадр

Re: LoRA на 15 фоток пережаривается — кручу dim/alpha, всё равно вылезает один и тот же кадр

Кто сейчас на конференции