Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Manuelriere · Сообщение **Manuelriere** » 25 май 2026, 04:57

Классификатор тикетов, на холдауте f1 0.94, выкатили в прод и через две недели sapport жалуется что качество дно. Собрал реальные предсказания, по факту f1 порядка 0.7. Оффлайн и онлайн разъехались почти на четверть. Данные те же вроде, фичи те же. Где обычно собака зарыта в таком разрыве?

peekatwo · Сообщение **peekatwo** » 25 май 2026, 09:42

@Manuelriere, train-serving skew почти наверняка. фичи в обучении считал одним кодом, в проде другим. где-то нормализация разная или дефолт для пропуска другой. классика когда офлайн пайплайн на пандасе а прод на голом питоне и они расходятся в мелочах

cohenst1 · Сообщение **cohenst1** » 25 май 2026, 14:25

лик данных проверь. 0.94 на холдауте при 0.7 в проде это часто не дрейф а переоценка на старте. если у тебя в фичах просочилось что-то что в момент инференса недоступно или таргет подтёк, валидация всегда будет завышена

Kutz · Сообщение **Kutz** » 25 май 2026, 15:14

cohenst1 писал(а):если у тебя в фичах просочилось что-то что в момент инференса недоступно

вот это первое что проверил бы. типичный кейс, фича посчитана с агрегатом по будущему окну, на трейне она есть, в реалтайме её физически нет на момент предсказания, заполняется дефолтом и модель слепнет. target leakage даёт ровно такую картину, шикарный офлайн и провал в бою

regexuser · Сообщение **regexuser** » 25 май 2026, 17:12

две недели и просело, а сколько до этого держалось? если в первый день было ок а потом поехало это дрейф, а если сразу 0.7 то это skew или лик. это разные диагнозы и лечатся по разному, ты ОП уточни динамику

menace · Сообщение **menace** » 25 май 2026, 19:49

Разрыв офлайн-онлайн почти всегда одна из трёх причин, и диагностируются они по очереди.

Первое и самое частое, train-serving skew. Признаки одни и те же по названию, но считаются разным кодом на трейне и в проде. Возьми сто реальных прод-запросов, прогони те же объекты через ОБА пайплайна, офлайновый и продовый, и сравни векторы фичей поэлементно. В 9 случаях из 10 находишь что какая-то фича разъехалась, другая нормализация, другой дефолт для null, другая кодировка категории, тримминг строк. Это объясняет резкое падение с первого дня. Лечится одним кодом фичей для обучения и инференса, в идеале feature store или общая библиотека, не копипаста.

Второе, data leakage. Если skew не нашёл, ищи фичу которая на трейне доступна а в момент реального предсказания нет. Агрегаты с заглядыванием в будущее, поля заполняемые уже после события. На холдауте красиво, в бою пусто.

Третье, дрейф. Если первые дни было хорошо и поехало постепенно, значит распределение входов уехало от обучающего. Новые категории тикетов, сменился тон обращений, сезонность. Тут помогает мониторинг входных распределений и регулярное дообучение.

Практически. Логируй в проде и фичи и предсказания и потом реальный лейбл, без этого ты диагностируешь вслепую. Построй PSI по каждой фиче прод против трейна, что выскочило за 0.2 то и разъехалось. И почини сначала skew, это самый дешёвый и самый частый виновник, дрейфом займёшься если после выравнивания пайплайнов разрыв останется.

jodgould · Сообщение **jodgould** » 25 май 2026, 20:29

menace писал(а):Возьми сто реальных прод-запросов, прогони те же объекты через ОБА пайплайна

это буквально единственный надёжный способ, всё остальное гадание. сделал так однажды и нашёл что в проде дата парсилась как строка а на трейне как datetime, и фича дня недели везде была 0. полчаса работы и нашёл то что неделю искал глазами по коду

Version · Сообщение **Version** » 25 май 2026, 23:54

ещё банально посмотри не съехал ли порог. если ты на валидации подобрал threshold 0.5 по сбалансированному холдауту, а в проде классы 1 к 20, то f1 просядет просто из-за дисбаланса даже при идеальных скорах. иногда дело не в модели а в пороге решения

Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Re: Метрика на валидации 0.94 а в проде модель сыпется, где я налажал

Кто сейчас на конференции