Метрика на валидации 0.94 а в проде модель сыпется, где я налажал
Рейтинг: 34.2% · 2 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- Manuelriere
- Сообщения: 58
- Зарегистрирован: 13 май 2026, 17:46
Метрика на валидации 0.94 а в проде модель сыпется, где я налажал
Классификатор тикетов, на холдауте f1 0.94, выкатили в прод и через две недели sapport жалуется что качество дно. Собрал реальные предсказания, по факту f1 порядка 0.7. Оффлайн и онлайн разъехались почти на четверть. Данные те же вроде, фичи те же. Где обычно собака зарыта в таком разрыве?
✔ Лучший ответ сформирован автоматически — menace
Разрыв офлайн-онлайн почти всегда одна из трёх причин, и диагностируются они по очереди. Первое и самое частое, train-serving skew. Признаки одни и те же по названию, но считаются разным кодом на трейне и в проде. Возьми сто реальных прод-запросов, прогони те же объекты через ОБА пайплайна, офлайновый и продовый, и сравни векторы фичей поэлементно. В 9 случаях из 10 находишь что какая-то фича раз…
Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал
@Manuelriere, train-serving skew почти наверняка. фичи в обучении считал одним кодом, в проде другим. где-то нормализация разная или дефолт для пропуска другой. классика когда офлайн пайплайн на пандасе а прод на голом питоне и они расходятся в мелочах
Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал
лик данных проверь. 0.94 на холдауте при 0.7 в проде это часто не дрейф а переоценка на старте. если у тебя в фичах просочилось что-то что в момент инференса недоступно или таргет подтёк, валидация всегда будет завышена
Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал
вот это первое что проверил бы. типичный кейс, фича посчитана с агрегатом по будущему окну, на трейне она есть, в реалтайме её физически нет на момент предсказания, заполняется дефолтом и модель слепнет. target leakage даёт ровно такую картину, шикарный офлайн и провал в боюcohenst1 писал(а):если у тебя в фичах просочилось что-то что в момент инференса недоступно
Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал
✔ Лучший ответ — сформирован автоматически
Разрыв офлайн-онлайн почти всегда одна из трёх причин, и диагностируются они по очереди.
Первое и самое частое, train-serving skew. Признаки одни и те же по названию, но считаются разным кодом на трейне и в проде. Возьми сто реальных прод-запросов, прогони те же объекты через ОБА пайплайна, офлайновый и продовый, и сравни векторы фичей поэлементно. В 9 случаях из 10 находишь что какая-то фича разъехалась, другая нормализация, другой дефолт для null, другая кодировка категории, тримминг строк. Это объясняет резкое падение с первого дня. Лечится одним кодом фичей для обучения и инференса, в идеале feature store или общая библиотека, не копипаста.
Второе, data leakage. Если skew не нашёл, ищи фичу которая на трейне доступна а в момент реального предсказания нет. Агрегаты с заглядыванием в будущее, поля заполняемые уже после события. На холдауте красиво, в бою пусто.
Третье, дрейф. Если первые дни было хорошо и поехало постепенно, значит распределение входов уехало от обучающего. Новые категории тикетов, сменился тон обращений, сезонность. Тут помогает мониторинг входных распределений и регулярное дообучение.
Практически. Логируй в проде и фичи и предсказания и потом реальный лейбл, без этого ты диагностируешь вслепую. Построй PSI по каждой фиче прод против трейна, что выскочило за 0.2 то и разъехалось. И почини сначала skew, это самый дешёвый и самый частый виновник, дрейфом займёшься если после выравнивания пайплайнов разрыв останется.
Первое и самое частое, train-serving skew. Признаки одни и те же по названию, но считаются разным кодом на трейне и в проде. Возьми сто реальных прод-запросов, прогони те же объекты через ОБА пайплайна, офлайновый и продовый, и сравни векторы фичей поэлементно. В 9 случаях из 10 находишь что какая-то фича разъехалась, другая нормализация, другой дефолт для null, другая кодировка категории, тримминг строк. Это объясняет резкое падение с первого дня. Лечится одним кодом фичей для обучения и инференса, в идеале feature store или общая библиотека, не копипаста.
Второе, data leakage. Если skew не нашёл, ищи фичу которая на трейне доступна а в момент реального предсказания нет. Агрегаты с заглядыванием в будущее, поля заполняемые уже после события. На холдауте красиво, в бою пусто.
Третье, дрейф. Если первые дни было хорошо и поехало постепенно, значит распределение входов уехало от обучающего. Новые категории тикетов, сменился тон обращений, сезонность. Тут помогает мониторинг входных распределений и регулярное дообучение.
Практически. Логируй в проде и фичи и предсказания и потом реальный лейбл, без этого ты диагностируешь вслепую. Построй PSI по каждой фиче прод против трейна, что выскочило за 0.2 то и разъехалось. И почини сначала skew, это самый дешёвый и самый частый виновник, дрейфом займёшься если после выравнивания пайплайнов разрыв останется.
Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал
это буквально единственный надёжный способ, всё остальное гадание. сделал так однажды и нашёл что в проде дата парсилась как строка а на трейне как datetime, и фича дня недели везде была 0. полчаса работы и нашёл то что неделю искал глазами по кодуmenace писал(а):Возьми сто реальных прод-запросов, прогони те же объекты через ОБА пайплайна
Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал
ещё банально посмотри не съехал ли порог. если ты на валидации подобрал threshold 0.5 по сбалансированному холдауту, а в проде классы 1 к 20, то f1 просядет просто из-за дисбаланса даже при идеальных скорах. иногда дело не в модели а в пороге решения
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Менеджер требует PageSpeed 90+, а на сайте Метрика с вебвизором, Jivo и три баннера AdFox
4 ответов · 4 просмотров
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость