Запорол лору на 800 фото из за кривого датасета, делитесь как вы чистите данные

Рейтинг: 37.6% · 5 голосов
Генеративный AI для картинок и видео: Stable Diffusion, Midjourney, Flux, Sora, ComfyUI, LoRA, ControlNet, промпт-инжиниринг и творческие пайплайны.
Ответить
Аватара пользователя
timur12
Сообщения: 30
Зарегистрирован: 13 май 2026, 01:35

Запорол лору на 800 фото из за кривого датасета, делитесь как вы чистите данные

Сообщение timur12 »

Слил три дня и 1500 рублей аренды на тренировку лоры, а результат мусор потому что датасет был грязный. Собрал 800 картинок персонажа, накидал теги автотеггером и пустил тренить на 4090. На выходе лора тащит в кадр случайный мусор: водяные знаки, рамки, какой то текст снизу, и стиль плавает потому что фото были из разных источников с разной обработкой. Понял что проблема в данных а не в настройках, но уже после того как спалил деньги. Как вы реально чистите датасет перед тренировкой, есть нормальный воркфлоу или все руками перебирают.
👍2 ❤️1 🔥 😄 🤔3
✔ Лучший ответ сформирован автоматически — torch22
Вот рабочий процесс чистки, выстрадал за пару лет тренировок. Первое и самое важное, отсмотреть руками каждое фото, да все, по другому никак, на 800 это вечер с сериалом на фоне. Выкидываешь все с водяными знаками, рамками, текстом, коллажи, мыло, кадры где персонаж мелкий или обрезан. Лучше 60 чистых чем 800 с мусором, модель учит ВСЕ что видит, включая логотип в углу. Второе, приводишь к едином…
Перейти к ответу →
Аватара пользователя
jbentley
Сообщения: 20
Зарегистрирован: 24 май 2026, 17:24

Re: Запорол лору на 800 фото из за кривого датасета, делитесь как вы чистите данные

Сообщение jbentley »

800 фото для лоры персонажа это перебор дикий. бери 30-50 хороших и получишь лучше чем из 800 помойки. меньше да лучше тут прям работает
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
vuenerd
Сообщения: 6
Зарегистрирован: 27 май 2026, 03:02

Re: Запорол лору на 800 фото из за кривого датасета, делитесь как вы чистите данные

Сообщение vuenerd »

автотеггер без ручной вычитки это и есть твоя ошибка. он тебе watermark не отметил, модель и выучила водяной знак как часть персонажа. классика
👍1 ❤️ 🔥1 😄 🤔
Аватара пользователя
sainty
Сообщения: 94
Зарегистрирован: 11 май 2026, 02:57

Re: Запорол лору на 800 фото из за кривого датасета, делитесь как вы чистите данные

Сообщение sainty »

jbentley писал(а):800 фото для лоры персонажа это перебор
не всегда. для стиля или для персонажа в куче ракурсов 800 норм, если они чистые. проблема не в количестве а в том что он не отсмотрел. но согласен что на 50 идеальных проще выйти на результат и дешевле тренить
👍2 ❤️1 🔥1 😄 🤔
Аватара пользователя
torch22
Сообщения: 43
Зарегистрирован: 11 май 2026, 20:50

Re: Запорол лору на 800 фото из за кривого датасета, делитесь как вы чистите данные

Сообщение torch22 »

✔ Лучший ответ — сформирован автоматически
Вот рабочий процесс чистки, выстрадал за пару лет тренировок. Первое и самое важное, отсмотреть руками каждое фото, да все, по другому никак, на 800 это вечер с сериалом на фоне. Выкидываешь все с водяными знаками, рамками, текстом, коллажи, мыло, кадры где персонаж мелкий или обрезан. Лучше 60 чистых чем 800 с мусором, модель учит ВСЕ что видит, включая логотип в углу. Второе, приводишь к единому виду: кропаешь под нужный аспект, апскейлишь мелкие если жалко выкидывать, но лучше выкинуть. Третье, теги. Автотеггер (wd-tagger) дает основу, но дальше руками: убираешь мусорные теги, и главное, добавляешь тег который НЕ хочешь чтобы лора выучила как постоянку. Звучит наоборот, но смысл такой: если на всех фото красная куртка и ты ее не затегал, лора вошьет куртку намертво. Затегал red jacket, теперь куртка отвязана и управляется промптом. То же с фоном, добавь simple background где он простой. Четвертое, перед полным прогоном гоняй тестовую тренировку на 10 эпохах и смотри превью, увидишь мусор сразу и не спалишь все деньги. И отзеркаленные дубли не добавляй, оверфитит. По деньгам: тестовый прогон на 30 минут аренды это рублей 30, дешевле чем твои 1500 в трубу.
👍 ❤️1 🔥 😄1 🤔1
Аватара пользователя
lucky1000
Сообщения: 24
Зарегистрирован: 12 май 2026, 22:45

Re: Запорол лору на 800 фото из за кривого датасета, делитесь как вы чистите данные

Сообщение lucky1000 »

watermark в датасете это боль номер один у всех новичков. еще совет, прогони пачку через детектор водяных знаков перед ручным отсмотром, хоть грубо отсеет очевидное и глаза меньше устанут
👍1 ❤️ 🔥2 😄1 🤔
Аватара пользователя
nerd_max
Сообщения: 34
Зарегистрирован: 11 май 2026, 14:33

Re: Запорол лору на 800 фото из за кривого датасета, делитесь как вы чистите данные

Сообщение nerd_max »

@автор полторашку не жалей, считай оплатил урок. все так учились. главное теперь не повторяй и руками смотри
👍 ❤️ 🔥1 😄2 🤔
Аватара пользователя
lorenzinoarq
Сообщения: 65
Зарегистрирован: 11 май 2026, 00:03

Re: Запорол лору на 800 фото из за кривого датасета, делитесь как вы чистите данные

Сообщение lorenzinoarq »

sainty писал(а):если на всех фото красная куртка и ты ее не затегал, лора вошьет куртку намертво
вот это золото, до меня этот принцип месяца три доходил. что тегаешь то отвязываешь, что не тегаешь то прибивается гвоздями к персонажу. как понял так качество лор подскочило резко
👍1 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Нейрогенерация: изображения и видео»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей