Холивар синтетические данные для обучения это будущее или костыль который убьёт модели
Рейтинг: 48.7% · 7 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Холивар синтетические данные для обучения это будущее или костыль который убьёт модели
Синтетические данные для обучения моделей это реально работающий подход или мы все дружно копаем себе яму. Везде сейчас генерят датасеты другой моделью и учат на них, экономия на разметке колоссальная. Но есть же работы про model collapse, когда модель учится на выхлопе модели и постепенно тупеет, схлопывается разнообразие. Кто реально учил на синтетике в 2026, что по итогу.
✔ Лучший ответ сформирован автоматически — leochir
@lostangel, расскажу чем кончилось у нас, без религии. Учили классификатор тикетов, реальных размеченных было 4к, мало. Догенерили синтетикой через большую модель ещё 20к примеров по редким классам где данных почти не было. Что сработало: на редких классах f1 поднялся с 0.4 до 0.7, потому что раньше там было по 30 примеров и модель их в упор не видела. Что пошло не так: синтетика оказалась слишко…
Re: Холивар синтетические данные для обучения это будущее или костыль который убьёт модели
это верно только если ты тупо генеришь и не фильтруешь. На практике никто хороший так не делает. Генеришь с запасом, потом прогоняешь через фильтры: верификатор, дедуп, отсев по перплексии, для кода тесты гоняешь и оставляешь только то что прошло. После фильтрации это уже не сырой выхлоп а отобранный сигнал. Phi модели на этом построены и они не тупые. Так что проблема не в синтетике как таковой а в ленивых пайплайнах без контроля качества.lostangel писал(а):Учишь на галлюцinациях большой модели, получаешь дистилляцию её же ошибок
Re: Холивар синтетические данные для обучения это будущее или костыль который убьёт модели
✔ Лучший ответ — сформирован автоматически
@lostangel, расскажу чем кончилось у нас, без религии. Учили классификатор тикетов, реальных размеченных было 4к, мало. Догенерили синтетикой через большую модель ещё 20к примеров по редким классам где данных почти не было. Что сработало: на редких классах f1 поднялся с 0.4 до 0.7, потому что раньше там было по 30 примеров и модель их в упор не видела. Что пошло не так: синтетика оказалась слишком чистой и шаблонной, реальные тикеты грязные, с опечатками, обрывками, матом, а синтетические гладкие как из учебника. Модель привыкла к чистоте и на грязном проде села. Лечили так: прогнали синтетику через аугментацию под реальный шум (случайные опечатки, обрезка, нижний регистр, эмодзи), и обязательно держали долю реальных данных не меньше 30% в каждом батче. Итог, синтетика как добивка по редким классам и для баланса работает отлично, но как полная замена реальных данных нет. Это инструмент под конкретную дыру а не серебряная пуля. И валидацию только на реальных данных, синтетику в вал не пускать никогда, иначе намеришь себе сказку.
Re: Холивар синтетические данные для обучения это будущее или костыль который убьёт модели
вот это самое ценное во всём треде. Distribution gap между синтетикой и реальностью убивает больше проектов чем мифический коллапс. Спасибо что с цифрами а не лозунгамиleochir писал(а):синтетика оказалась слишком чистой и шаблонной, реальные тикеты грязные, с опечатками, обрывками
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
-
- SwiftUI или UIKit под новый iOS-проект в 2026 — холивар или уже всё решено?
11 ответов · 536 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость