Метрики на валидации красивые а в проде модель сыпется, почему
Рейтинг: 34.2% · 2 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- Marina_DevOps
- Сообщения: 25
- Зарегистрирован: 11 май 2026, 05:31
Метрики на валидации красивые а в проде модель сыпется, почему
Классическая боль: roc-auc 0.94 на валидации, выкатили скоринг в прод, через две недели бизнес орёт что точность на глаз процентов 60. Антифрод-задача, градиентный бустинг (catboost), сплит по времени делал, лик вроде искал. Где обычно прячется засада между офлайн-метрикой и реальностью? Уже неделю не сплю.
✔ Лучший ответ сформирован автоматически — Krs1958
@автор давай по порядку, я такие разборы делал не раз. первое и главное, разведи две вещи: упала метрика модели или упала метрика которую видит бизнес. это разные вещи. бизнес часто меряет precision на пороге который ты не оптимизировал, плюс смотрит на абсолют а не на ранжирование. твой auc 0.94 это про ранжирование, а в проде кто-то выставил порог 0.5 и режет по нему, хотя оптимальный порог по …
- geek_semyon
- Сообщения: 1
- Зарегистрирован: 12 май 2026, 21:57
Re: Метрики на валидации красивые а в проде модель сыпется, почему
сплит по времени это хорошо, но ты таргет как считал на валидации? в антифроде разметка часто доезжает с лагом 30-60 дней. на трейне у тебя зрелые метки, в проде свежие транзакции ещё не размечены, и ты сравниваешь несравнимое.
Re: Метрики на валидации красивые а в проде модель сыпется, почему
вроде это не искал. в антифроде утечка обожает прятаться в агрегатах. если ты считаешь фичу типа доля фрода по этому мерчанту за всё время, она на трейне знает будущее. пересчитай все агрегаты строго как rolling на момент транзакции, спорю что auc просядет до 0.8 и вот это будет честное число.Marina_DevOps писал(а):лик вроде искал
- coder_vlad
- Сообщения: 72
- Зарегистрирован: 11 май 2026, 01:57
Re: Метрики на валидации красивые а в проде модель сыпется, почему
✔ Лучший ответ — сформирован автоматически
@автор давай по порядку, я такие разборы делал не раз. первое и главное, разведи две вещи: упала метрика модели или упала метрика которую видит бизнес. это разные вещи. бизнес часто меряет precision на пороге который ты не оптимизировал, плюс смотрит на абсолют а не на ранжирование. твой auc 0.94 это про ранжирование, а в проде кто-то выставил порог 0.5 и режет по нему, хотя оптимальный порог по твоей выборке скажем 0.83. уже отсюда вылезает половина расхождения. второе, обязательно собери prod-vs-train сравнение распределений по каждой фиче, не на глаз а ks-тестом или psi, psi выше 0.25 по фиче это красный флаг. третье, проверь train serving skew, то есть одинаково ли ты считаешь фичи в обучении и в инференсе. очень частая дичь: в трейне фича посчитана в pandas по всему датафрейму, а в проде на лету по одной транзакции, и где-то разная обработка пропусков, разный таймзон, разное округление. собери сотню реальных prod-запросов, прогони их же через train-пайплайн и сравни фичи поштучно, расхождения вылезут моментально. и да, лаг разметки про который выше писали реальная штука, свежий прод просто ещё не дозрел чтобы по нему честно мерять. дай проду 45 дней отлежаться и померь на дозревших метках, тогда поймёшь настоящую деградацию.
Re: Метрики на валидации красивые а в проде модель сыпется, почему
вот это топ-1 причина по моему опыту, train serving skew у всех кто не вынес расчёт фич в единый сервис. мы пока не сделали общую либу для фич, ловили это каждый релиз.Krs1958 писал(а):в трейне фича посчитана в pandas по всему датафрейму, а в проде на лету по одной транзакции
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
- Яндекс закрывает бесплатный тариф Метрики для крупных сайтов слух или правда
6 ответов · 3 просмотров
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость