Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Sjobs · Сообщение **Sjobs** » 05 июн 2026, 05:46

Синтетические данные для обучения моделей это реально работающий подход или мы все дружно копаем себе яму. Везде сейчас генерят датасеты другой моделью и учат на них, экономия на разметке колоссальная. Но есть же работы про model collapse, когда модель учится на выхлопе модели и постепенно тупеет, схлопывается разнообразие. Кто реально учил на синтетике в 2026, что по итогу.

lostangel · Сообщение **lostangel** » 05 июн 2026, 07:25

@Sjobs, костыль конечно. Учишь на галлюцinациях большой модели, получаешь дистилляцию её же ошибок. Мусор на входе мусор на выходе

Austkin · Сообщение **Austkin** » 05 июн 2026, 11:23

model collapse это про рекурсивное обучение без свежих реальных данных. Если ты подмешиваешь синтетику к реальным данным а не заменяешь их полностью, никакого коллапса нет. Передёргиваете

rawgoblin · Сообщение **rawgoblin** » 05 июн 2026, 16:15

lostangel писал(а):Учишь на галлюцinациях большой модели, получаешь дистилляцию её же ошибок

это верно только если ты тупо генеришь и не фильтруешь. На практике никто хороший так не делает. Генеришь с запасом, потом прогоняешь через фильтры: верификатор, дедуп, отсев по перплексии, для кода тесты гоняешь и оставляешь только то что прошло. После фильтрации это уже не сырой выхлоп а отобранный сигнал. Phi модели на этом построены и они не тупые. Так что проблема не в синтетике как таковой а в ленивых пайплайнах без контроля качества.

leochir · Сообщение **leochir** » 05 июн 2026, 17:28

@lostangel, расскажу чем кончилось у нас, без религии. Учили классификатор тикетов, реальных размеченных было 4к, мало. Догенерили синтетикой через большую модель ещё 20к примеров по редким классам где данных почти не было. Что сработало: на редких классах f1 поднялся с 0.4 до 0.7, потому что раньше там было по 30 примеров и модель их в упор не видела. Что пошло не так: синтетика оказалась слишком чистой и шаблонной, реальные тикеты грязные, с опечатками, обрывками, матом, а синтетические гладкие как из учебника. Модель привыкла к чистоте и на грязном проде села. Лечили так: прогнали синтетику через аугментацию под реальный шум (случайные опечатки, обрезка, нижний регистр, эмодзи), и обязательно держали долю реальных данных не меньше 30% в каждом батче. Итог, синтетика как добивка по редким классам и для баланса работает отлично, но как полная замена реальных данных нет. Это инструмент под конкретную дыру а не серебряная пуля. И валидацию только на реальных данных, синтетику в вал не пускать никогда, иначе намеришь себе сказку.

depechie · Сообщение **depechie** » 05 июн 2026, 20:14

leochir писал(а):синтетика оказалась слишком чистой и шаблонной, реальные тикеты грязные, с опечатками, обрывками

вот это самое ценное во всём треде. Distribution gap между синтетикой и реальностью убивает больше проектов чем мифический коллапс. Спасибо что с цифрами а не лозунгами

Vvz1995 · Сообщение **Vvz1995** » 06 июн 2026, 00:48

для llm одно, для классики типа табличек другое. На табличных данных SMOTE и синтетика давно живут и норм, не надо всё в одну кучу. Холивар про llm а заголовок общий

kotlin123 · Сообщение **kotlin123** » 06 июн 2026, 03:17

+1 что заголовок общий а спор только про генеративку. Для CV синтетика из движков (рендер, домен рандомизация) вообще индустриальный стандарт уже лет 5, никто не ноет про коллапс

Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Re: Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Re: Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Re: Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Re: Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Re: Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Re: Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Re: Холивар синтетические данные для обучения это будущее или костыль который убьёт модели

Кто сейчас на конференции