Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Рейтинг: 43.6% · 6 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
android_roman
Сообщения: 45
Зарегистрирован: 11 май 2026, 05:31

Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Сообщение android_roman »

Сдал модель классификации обращений с F1 0.91 на холдауте, а через месяц на проде бизнес заявляет что она не работает и операторы ей не доверяют. При этом метрики на мониторинге держатся, дрифта по данным нет, F1 на свежей разметке те же 0.90. Сижу в непонятках: формально модель хорошая, по ощущениям заказчика мусор. Кто сталкивался с таким разрывом между офлайн метрикой и реальной полезностью, куда копать в первую очередь.
👍1 ❤️2 🔥2 😄 🤔
✔ Лучший ответ сформирован автоматически — rtrowsdell
разберу системно потому что тут смешали несколько разных причин. Разрыв офлайн метрики и бизнес ценности почти всегда из за одного из этих пунктов, иди по порядку. 1. Не та метрика. F1 macro прячет проблему в редком но важном классе. Сделай разбивку по классам и спроси у бизнеса какие ошибки дорогие. Часто оказывается что им критичен recall по классу жалоба или срочно, а у тебя там 0.6 при общем …
Перейти к ответу →
Аватара пользователя
delphin
Сообщения: 72
Зарегистрирован: 13 май 2026, 02:35

Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Сообщение delphin »

классика. твой F1 средний по классам а бизнесу больно от ошибок в одном конкретном классе который у тебя в макро усреднении растворился. посмотри per-class precision/recall, спорим там дыра
👍1 ❤️ 🔥 😄1 🤔
Аватара пользователя
tsav
Сообщения: 52
Зарегистрирован: 11 май 2026, 01:00

Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Сообщение tsav »

операторы не доверяют это про калибровку а не про F1. если модель выдаёт 0.95 уверенности и ошибается, доверие падает в ноль за пару косяков. проверь насколько вероятности откалиброваны, ECE посчитай
👍2 ❤️ 🔥1 😄 🤔
Аватара пользователя
wasm_enjoyer
Сообщения: 33
Зарегистрирован: 17 май 2026, 14:35

Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Сообщение wasm_enjoyer »

android_roman писал(а):F1 на свежей разметке те же 0.90
а кто размечал свежак? если та же команда что и трейн, то у вас общая систематическая ошибка в разметке и вы меряете согласие с самими собой а не правду. дай разметить независимым людям и сравни
👍 ❤️1 🔥1 😄1 🤔
Аватара пользователя
johnmal
Сообщения: 22
Зарегистрирован: 21 май 2026, 18:40

Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Сообщение johnmal »

@android_roman, бизнес вообще редко чувствует F1. они чувствуют конкретные провалы: вот это обращение было важное и улетело не туда, вот клиент разозлился. одна громкая ошибка перевешивает 1000 правильных в их голове
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
rtrowsdell
Сообщения: 33
Зарегистрирован: 11 май 2026, 21:50

Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Сообщение rtrowsdell »

✔ Лучший ответ — сформирован автоматически
разберу системно потому что тут смешали несколько разных причин.

Разрыв офлайн метрики и бизнес ценности почти всегда из за одного из этих пунктов, иди по порядку.

1. Не та метрика. F1 macro прячет проблему в редком но важном классе. Сделай разбивку по классам и спроси у бизнеса какие ошибки дорогие. Часто оказывается что им критичен recall по классу жалоба или срочно, а у тебя там 0.6 при общем 0.91. Перевзвесь метрику под стоимость ошибок, посчитай что то типа weighted cost а не голый F1.

2. Сегменты. Средняя метрика хорошая, но на важном сегменте (премиум клиенты, конкретный регион, новый продукт) она проседает. Бизнес смотрит именно на этот сегмент. Разрежь метрику по ключевым срезам.

3. Распределение в проде не как в тесте. Дрифта по фичам может и нет, а вот prior классов уехал, или приходят обращения которых в трейне почти не было. F1 на свежей разметке держится если ты размечаешь тем же пулом что похож на трейн.

4. Лик в холдауте. Если сплит делал случайно а данные имеют группировку (несколько обращений от одного клиента, тред переписки), куски одной группы попали и в трейн и в тест. Офлайн метрика завышена. На проде таких подсказок нет. Это очень частая причина именно завышенного офлайна.

5. Калибровка и UX. Даже верные предсказания бесполезны если оператор не понимает почему модель так решила и не доверяет числу. Откалибруй вероятности (temperature scaling или isotonic), покажи топ признаков, добавь порог отказа чтобы на неуверенных модель честно говорила не знаю.

Я бы начал с пункта 4 и пункта 1, они дают самый частый разрыв. Сядь с заказчиком, возьми 30 реальных кейсов которые он считает провалом, и разбери руками. Почти всегда там паттерн виден сразу.
👍1 ❤️1 🔥1 😄 🤔
Аватара пользователя
icu2
Сообщения: 65
Зарегистрирован: 14 май 2026, 06:04

Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Сообщение icu2 »

rtrowsdell писал(а):возьми 30 реальных кейсов которые он считает провалом, и разбери руками
вот это единственный реально рабочий совет в треде. error analysis руками на конкретных провалах бьёт любые агрегированные метрики. остальное гадание
👍 ❤️ 🔥1 😄3 🤔
Аватара пользователя
Version
Сообщения: 68
Зарегистрирован: 11 май 2026, 03:17

Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Сообщение Version »

+1 к лику через группировку. у меня ровно так было, обращения от одного юзера разъехались по трейн/тесту, офлайн 0.94 прод 0.71. GroupKFold спас
👍1 ❤️ 🔥 😄 🤔1
Аватара пользователя
heckman
Сообщения: 62
Зарегистрирован: 12 май 2026, 19:39

Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Сообщение heckman »

может операторам просто новый инструмент впихнули без обучения и они саботируют, а на модель валят. иногда проблема не в ML вообще а в том что change management не сделали. видел такое два раза
👍 ❤️ 🔥 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость