Метрики на валидации красивые а в проде модель сыпется, почему

Рейтинг: 34.2% · 2 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
Marina_DevOps
Сообщения: 25
Зарегистрирован: 11 май 2026, 05:31

Метрики на валидации красивые а в проде модель сыпется, почему

Сообщение Marina_DevOps »

Классическая боль: roc-auc 0.94 на валидации, выкатили скоринг в прод, через две недели бизнес орёт что точность на глаз процентов 60. Антифрод-задача, градиентный бустинг (catboost), сплит по времени делал, лик вроде искал. Где обычно прячется засада между офлайн-метрикой и реальностью? Уже неделю не сплю.
👍 ❤️ 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — Krs1958
@автор давай по порядку, я такие разборы делал не раз. первое и главное, разведи две вещи: упала метрика модели или упала метрика которую видит бизнес. это разные вещи. бизнес часто меряет precision на пороге который ты не оптимизировал, плюс смотрит на абсолют а не на ранжирование. твой auc 0.94 это про ранжирование, а в проде кто-то выставил порог 0.5 и режет по нему, хотя оптимальный порог по …
Перейти к ответу →
Аватара пользователя
geek_semyon
Сообщения: 1
Зарегистрирован: 12 май 2026, 21:57

Re: Метрики на валидации красивые а в проде модель сыпется, почему

Сообщение geek_semyon »

сплит по времени это хорошо, но ты таргет как считал на валидации? в антифроде разметка часто доезжает с лагом 30-60 дней. на трейне у тебя зрелые метки, в проде свежие транзакции ещё не размечены, и ты сравниваешь несравнимое.
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
tommee
Сообщения: 64
Зарегистрирован: 11 май 2026, 02:37

Re: Метрики на валидации красивые а в проде модель сыпется, почему

Сообщение tommee »

Marina_DevOps писал(а):лик вроде искал
вроде это не искал. в антифроде утечка обожает прятаться в агрегатах. если ты считаешь фичу типа доля фрода по этому мерчанту за всё время, она на трейне знает будущее. пересчитай все агрегаты строго как rolling на момент транзакции, спорю что auc просядет до 0.8 и вот это будет честное число.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
coder_vlad
Сообщения: 72
Зарегистрирован: 11 май 2026, 01:57

Re: Метрики на валидации красивые а в проде модель сыпется, почему

Сообщение coder_vlad »

+1 к лагу разметки. сам обжигался
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
corvet
Сообщения: 38
Зарегистрирован: 16 май 2026, 06:36

Re: Метрики на валидации красивые а в проде модель сыпется, почему

Сообщение corvet »

data drift банально. covid, санкции, новый эквайринг подключили, поведение юзеров поехало. модель учили на одном распределении, прод другое. поставь мониторинг psi по топ фичам, увидишь где разъехалось.
👍1 ❤️1 🔥1 😄 🤔
Аватара пользователя
burg0809
Сообщения: 22
Зарегистрирован: 15 май 2026, 01:05

Re: Метрики на валидации красивые а в проде модель сыпется, почему

Сообщение burg0809 »

роняешь модель на 60% и неделю не спишь, а в логи прода смотрел? может там фичи половина в null прилетает потому что фиче-сервис не успевает и ты на дефолтах скоришь. это чаще причина чем хитрый лик.
👍 ❤️1 🔥1 😄 🤔1
Аватара пользователя
Krs1958
Сообщения: 6
Зарегистрирован: 11 май 2026, 09:55

Re: Метрики на валидации красивые а в проде модель сыпется, почему

Сообщение Krs1958 »

✔ Лучший ответ — сформирован автоматически
@автор давай по порядку, я такие разборы делал не раз. первое и главное, разведи две вещи: упала метрика модели или упала метрика которую видит бизнес. это разные вещи. бизнес часто меряет precision на пороге который ты не оптимизировал, плюс смотрит на абсолют а не на ранжирование. твой auc 0.94 это про ранжирование, а в проде кто-то выставил порог 0.5 и режет по нему, хотя оптимальный порог по твоей выборке скажем 0.83. уже отсюда вылезает половина расхождения. второе, обязательно собери prod-vs-train сравнение распределений по каждой фиче, не на глаз а ks-тестом или psi, psi выше 0.25 по фиче это красный флаг. третье, проверь train serving skew, то есть одинаково ли ты считаешь фичи в обучении и в инференсе. очень частая дичь: в трейне фича посчитана в pandas по всему датафрейму, а в проде на лету по одной транзакции, и где-то разная обработка пропусков, разный таймзон, разное округление. собери сотню реальных prod-запросов, прогони их же через train-пайплайн и сравни фичи поштучно, расхождения вылезут моментально. и да, лаг разметки про который выше писали реальная штука, свежий прод просто ещё не дозрел чтобы по нему честно мерять. дай проду 45 дней отлежаться и померь на дозревших метках, тогда поймёшь настоящую деградацию.
👍1 ❤️1 🔥 😄1 🤔
Аватара пользователя
valru
Сообщения: 63
Зарегистрирован: 11 май 2026, 05:24

Re: Метрики на валидации красивые а в проде модель сыпется, почему

Сообщение valru »

Krs1958 писал(а):в трейне фича посчитана в pandas по всему датафрейму, а в проде на лету по одной транзакции
вот это топ-1 причина по моему опыту, train serving skew у всех кто не вынес расчёт фич в единый сервис. мы пока не сделали общую либу для фич, ловили это каждый релиз.
👍 ❤️ 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость