Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

android_roman

Сдал модель классификации обращений с F1 0.91 на холдауте, а через месяц на проде бизнес заявляет что она не работает и операторы ей не доверяют. При этом метрики на мониторинге держатся, дрифта по данным нет, F1 на свежей разметке те же 0.90. Сижу в непонятках: формально модель хорошая, по ощущениям заказчика мусор. Кто сталкивался с таким разрывом между офлайн метрикой и реальной полезностью, куда копать в первую очередь.

delphin · Сообщение **delphin** » 23 май 2026, 09:15

классика. твой F1 средний по классам а бизнесу больно от ошибок в одном конкретном классе который у тебя в макро усреднении растворился. посмотри per-class precision/recall, спорим там дыра

tsav · Сообщение **tsav** » 23 май 2026, 09:48

операторы не доверяют это про калибровку а не про F1. если модель выдаёт 0.95 уверенности и ошибается, доверие падает в ноль за пару косяков. проверь насколько вероятности откалиброваны, ECE посчитай

wasm_enjoyer

android_roman писал(а):F1 на свежей разметке те же 0.90

а кто размечал свежак? если та же команда что и трейн, то у вас общая систематическая ошибка в разметке и вы меряете согласие с самими собой а не правду. дай разметить независимым людям и сравни

johnmal · Сообщение **johnmal** » 23 май 2026, 14:06

@android_roman, бизнес вообще редко чувствует F1. они чувствуют конкретные провалы: вот это обращение было важное и улетело не туда, вот клиент разозлился. одна громкая ошибка перевешивает 1000 правильных в их голове

rtrowsdell · Сообщение **rtrowsdell** » 23 май 2026, 18:01

разберу системно потому что тут смешали несколько разных причин.

Разрыв офлайн метрики и бизнес ценности почти всегда из за одного из этих пунктов, иди по порядку.

1. Не та метрика. F1 macro прячет проблему в редком но важном классе. Сделай разбивку по классам и спроси у бизнеса какие ошибки дорогие. Часто оказывается что им критичен recall по классу жалоба или срочно, а у тебя там 0.6 при общем 0.91. Перевзвесь метрику под стоимость ошибок, посчитай что то типа weighted cost а не голый F1.

2. Сегменты. Средняя метрика хорошая, но на важном сегменте (премиум клиенты, конкретный регион, новый продукт) она проседает. Бизнес смотрит именно на этот сегмент. Разрежь метрику по ключевым срезам.

3. Распределение в проде не как в тесте. Дрифта по фичам может и нет, а вот prior классов уехал, или приходят обращения которых в трейне почти не было. F1 на свежей разметке держится если ты размечаешь тем же пулом что похож на трейн.

4. Лик в холдауте. Если сплит делал случайно а данные имеют группировку (несколько обращений от одного клиента, тред переписки), куски одной группы попали и в трейн и в тест. Офлайн метрика завышена. На проде таких подсказок нет. Это очень частая причина именно завышенного офлайна.

5. Калибровка и UX. Даже верные предсказания бесполезны если оператор не понимает почему модель так решила и не доверяет числу. Откалибруй вероятности (temperature scaling или isotonic), покажи топ признаков, добавь порог отказа чтобы на неуверенных модель честно говорила не знаю.

Я бы начал с пункта 4 и пункта 1, они дают самый частый разрыв. Сядь с заказчиком, возьми 30 реальных кейсов которые он считает провалом, и разбери руками. Почти всегда там паттерн виден сразу.

icu2 · Сообщение **icu2** » 23 май 2026, 21:57

rtrowsdell писал(а):возьми 30 реальных кейсов которые он считает провалом, и разбери руками

вот это единственный реально рабочий совет в треде. error analysis руками на конкретных провалах бьёт любые агрегированные метрики. остальное гадание

Version · Сообщение **Version** » 23 май 2026, 22:16

+1 к лику через группировку. у меня ровно так было, обращения от одного юзера разъехались по трейн/тесту, офлайн 0.94 прод 0.71. GroupKFold спас

heckman · Сообщение **heckman** » 23 май 2026, 23:22

может операторам просто новый инструмент впихнули без обучения и они саботируют, а на модель валят. иногда проблема не в ML вообще а в том что change management не сделали. видел такое два раза

Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так

Кто сейчас на конференции