Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Рейтинг: 34.2% · 2 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
Manuelriere
Сообщения: 58
Зарегистрирован: 13 май 2026, 17:46

Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Сообщение Manuelriere »

Классификатор тикетов, на холдауте f1 0.94, выкатили в прод и через две недели sapport жалуется что качество дно. Собрал реальные предсказания, по факту f1 порядка 0.7. Оффлайн и онлайн разъехались почти на четверть. Данные те же вроде, фичи те же. Где обычно собака зарыта в таком разрыве?
👍 ❤️1 🔥1 😄 🤔1
✔ Лучший ответ сформирован автоматически — menace
Разрыв офлайн-онлайн почти всегда одна из трёх причин, и диагностируются они по очереди. Первое и самое частое, train-serving skew. Признаки одни и те же по названию, но считаются разным кодом на трейне и в проде. Возьми сто реальных прод-запросов, прогони те же объекты через ОБА пайплайна, офлайновый и продовый, и сравни векторы фичей поэлементно. В 9 случаях из 10 находишь что какая-то фича раз…
Перейти к ответу →
Аватара пользователя
peekatwo
Сообщения: 38
Зарегистрирован: 12 май 2026, 03:30

Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Сообщение peekatwo »

@Manuelriere, train-serving skew почти наверняка. фичи в обучении считал одним кодом, в проде другим. где-то нормализация разная или дефолт для пропуска другой. классика когда офлайн пайплайн на пандасе а прод на голом питоне и они расходятся в мелочах
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
cohenst1
Сообщения: 92
Зарегистрирован: 11 май 2026, 02:08

Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Сообщение cohenst1 »

лик данных проверь. 0.94 на холдауте при 0.7 в проде это часто не дрейф а переоценка на старте. если у тебя в фичах просочилось что-то что в момент инференса недоступно или таргет подтёк, валидация всегда будет завышена
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
Kutz
Сообщения: 71
Зарегистрирован: 16 май 2026, 02:21

Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Сообщение Kutz »

cohenst1 писал(а):если у тебя в фичах просочилось что-то что в момент инференса недоступно
вот это первое что проверил бы. типичный кейс, фича посчитана с агрегатом по будущему окну, на трейне она есть, в реалтайме её физически нет на момент предсказания, заполняется дефолтом и модель слепнет. target leakage даёт ровно такую картину, шикарный офлайн и провал в бою
👍 ❤️2 🔥 😄2 🤔
Аватара пользователя
regexuser
Сообщения: 11
Зарегистрирован: 14 май 2026, 07:10

Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Сообщение regexuser »

две недели и просело, а сколько до этого держалось? если в первый день было ок а потом поехало это дрейф, а если сразу 0.7 то это skew или лик. это разные диагнозы и лечатся по разному, ты ОП уточни динамику
👍2 ❤️ 🔥 😄1 🤔
Аватара пользователя
menace
Сообщения: 8
Зарегистрирован: 12 май 2026, 08:17

Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Сообщение menace »

✔ Лучший ответ — сформирован автоматически
Разрыв офлайн-онлайн почти всегда одна из трёх причин, и диагностируются они по очереди.

Первое и самое частое, train-serving skew. Признаки одни и те же по названию, но считаются разным кодом на трейне и в проде. Возьми сто реальных прод-запросов, прогони те же объекты через ОБА пайплайна, офлайновый и продовый, и сравни векторы фичей поэлементно. В 9 случаях из 10 находишь что какая-то фича разъехалась, другая нормализация, другой дефолт для null, другая кодировка категории, тримминг строк. Это объясняет резкое падение с первого дня. Лечится одним кодом фичей для обучения и инференса, в идеале feature store или общая библиотека, не копипаста.

Второе, data leakage. Если skew не нашёл, ищи фичу которая на трейне доступна а в момент реального предсказания нет. Агрегаты с заглядыванием в будущее, поля заполняемые уже после события. На холдауте красиво, в бою пусто.

Третье, дрейф. Если первые дни было хорошо и поехало постепенно, значит распределение входов уехало от обучающего. Новые категории тикетов, сменился тон обращений, сезонность. Тут помогает мониторинг входных распределений и регулярное дообучение.

Практически. Логируй в проде и фичи и предсказания и потом реальный лейбл, без этого ты диагностируешь вслепую. Построй PSI по каждой фиче прод против трейна, что выскочило за 0.2 то и разъехалось. И почини сначала skew, это самый дешёвый и самый частый виновник, дрейфом займёшься если после выравнивания пайплайнов разрыв останется.
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
jodgould
Сообщения: 9
Зарегистрирован: 26 май 2026, 10:01

Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Сообщение jodgould »

menace писал(а):Возьми сто реальных прод-запросов, прогони те же объекты через ОБА пайплайна
это буквально единственный надёжный способ, всё остальное гадание. сделал так однажды и нашёл что в проде дата парсилась как строка а на трейне как datetime, и фича дня недели везде была 0. полчаса работы и нашёл то что неделю искал глазами по коду
👍 ❤️2 🔥 😄 🤔
Аватара пользователя
Version
Сообщения: 68
Зарегистрирован: 11 май 2026, 03:17

Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Сообщение Version »

ещё банально посмотри не съехал ли порог. если ты на валидации подобрал threshold 0.5 по сбалансированному холдауту, а в проде классы 1 к 20, то f1 просядет просто из-за дисбаланса даже при идеальных скорах. иногда дело не в модели а в пороге решения
👍1 ❤️1 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей