Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Рейтинг: 48.7% · 7 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
Sjobs
Сообщения: 27
Зарегистрирован: 15 май 2026, 07:40

Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Сообщение Sjobs »

Синтетические данные для обучения моделей это реально работающий подход или мы все дружно копаем себе яму. Везде сейчас генерят датасеты другой моделью и учат на них, экономия на разметке колоссальная. Но есть же работы про model collapse, когда модель учится на выхлопе модели и постепенно тупеет, схлопывается разнообразие. Кто реально учил на синтетике в 2026, что по итогу.
👍 ❤️1 🔥2 😄1 🤔1
✔ Лучший ответ сформирован автоматически — leochir
@lostangel, расскажу чем кончилось у нас, без религии. Учили классификатор тикетов, реальных размеченных было 4к, мало. Догенерили синтетикой через большую модель ещё 20к примеров по редким классам где данных почти не было. Что сработало: на редких классах f1 поднялся с 0.4 до 0.7, потому что раньше там было по 30 примеров и модель их в упор не видела. Что пошло не так: синтетика оказалась слишко…
Перейти к ответу →
Аватара пользователя
lostangel
Сообщения: 11
Зарегистрирован: 13 май 2026, 23:10

Re: Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Сообщение lostangel »

@Sjobs, костыль конечно. Учишь на галлюцinациях большой модели, получаешь дистилляцию её же ошибок. Мусор на входе мусор на выходе
👍1 ❤️1 🔥 😄1 🤔1
Аватара пользователя
Austkin
Сообщения: 83
Зарегистрирован: 11 май 2026, 03:40

Re: Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Сообщение Austkin »

model collapse это про рекурсивное обучение без свежих реальных данных. Если ты подмешиваешь синтетику к реальным данным а не заменяешь их полностью, никакого коллапса нет. Передёргиваете
👍3 ❤️ 🔥 😄 🤔1
Аватара пользователя
rawgoblin
Сообщения: 39
Зарегистрирован: 13 май 2026, 07:42

Re: Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Сообщение rawgoblin »

lostangel писал(а):Учишь на галлюцinациях большой модели, получаешь дистилляцию её же ошибок
это верно только если ты тупо генеришь и не фильтруешь. На практике никто хороший так не делает. Генеришь с запасом, потом прогоняешь через фильтры: верификатор, дедуп, отсев по перплексии, для кода тесты гоняешь и оставляешь только то что прошло. После фильтрации это уже не сырой выхлоп а отобранный сигнал. Phi модели на этом построены и они не тупые. Так что проблема не в синтетике как таковой а в ленивых пайплайнах без контроля качества.
👍1 ❤️1 🔥1 😄 🤔
Аватара пользователя
leochir
Сообщения: 20
Зарегистрирован: 11 май 2026, 01:44

Re: Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Сообщение leochir »

✔ Лучший ответ — сформирован автоматически
@lostangel, расскажу чем кончилось у нас, без религии. Учили классификатор тикетов, реальных размеченных было 4к, мало. Догенерили синтетикой через большую модель ещё 20к примеров по редким классам где данных почти не было. Что сработало: на редких классах f1 поднялся с 0.4 до 0.7, потому что раньше там было по 30 примеров и модель их в упор не видела. Что пошло не так: синтетика оказалась слишком чистой и шаблонной, реальные тикеты грязные, с опечатками, обрывками, матом, а синтетические гладкие как из учебника. Модель привыкла к чистоте и на грязном проде села. Лечили так: прогнали синтетику через аугментацию под реальный шум (случайные опечатки, обрезка, нижний регистр, эмодзи), и обязательно держали долю реальных данных не меньше 30% в каждом батче. Итог, синтетика как добивка по редким классам и для баланса работает отлично, но как полная замена реальных данных нет. Это инструмент под конкретную дыру а не серебряная пуля. И валидацию только на реальных данных, синтетику в вал не пускать никогда, иначе намеришь себе сказку.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
depechie
Сообщения: 67
Зарегистрирован: 11 май 2026, 11:32

Re: Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Сообщение depechie »

leochir писал(а):синтетика оказалась слишком чистой и шаблонной, реальные тикеты грязные, с опечатками, обрывками
вот это самое ценное во всём треде. Distribution gap между синтетикой и реальностью убивает больше проектов чем мифический коллапс. Спасибо что с цифрами а не лозунгами
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
Vvz1995
Сообщения: 34
Зарегистрирован: 14 май 2026, 01:29

Re: Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Сообщение Vvz1995 »

для llm одно, для классики типа табличек другое. На табличных данных SMOTE и синтетика давно живут и норм, не надо всё в одну кучу. Холивар про llm а заголовок общий
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
kotlin123
Сообщения: 46
Зарегистрирован: 12 май 2026, 14:33

Re: Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Сообщение kotlin123 »

+1 что заголовок общий а спор только про генеративку. Для CV синтетика из движков (рендер, домен рандомизация) вообще индустриальный стандарт уже лет 5, никто не ноет про коллапс
👍1 ❤️ 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость