Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так
Рейтинг: 43.6% · 6 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- android_roman
- Сообщения: 45
- Зарегистрирован: 11 май 2026, 05:31
Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так
Сдал модель классификации обращений с F1 0.91 на холдауте, а через месяц на проде бизнес заявляет что она не работает и операторы ей не доверяют. При этом метрики на мониторинге держатся, дрифта по данным нет, F1 на свежей разметке те же 0.90. Сижу в непонятках: формально модель хорошая, по ощущениям заказчика мусор. Кто сталкивался с таким разрывом между офлайн метрикой и реальной полезностью, куда копать в первую очередь.
✔ Лучший ответ сформирован автоматически — rtrowsdell
разберу системно потому что тут смешали несколько разных причин. Разрыв офлайн метрики и бизнес ценности почти всегда из за одного из этих пунктов, иди по порядку. 1. Не та метрика. F1 macro прячет проблему в редком но важном классе. Сделай разбивку по классам и спроси у бизнеса какие ошибки дорогие. Часто оказывается что им критичен recall по классу жалоба или срочно, а у тебя там 0.6 при общем …
- wasm_enjoyer
- Сообщения: 33
- Зарегистрирован: 17 май 2026, 14:35
Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так
а кто размечал свежак? если та же команда что и трейн, то у вас общая систематическая ошибка в разметке и вы меряете согласие с самими собой а не правду. дай разметить независимым людям и сравниandroid_roman писал(а):F1 на свежей разметке те же 0.90
Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так
@android_roman, бизнес вообще редко чувствует F1. они чувствуют конкретные провалы: вот это обращение было важное и улетело не туда, вот клиент разозлился. одна громкая ошибка перевешивает 1000 правильных в их голове
- rtrowsdell
- Сообщения: 33
- Зарегистрирован: 11 май 2026, 21:50
Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так
✔ Лучший ответ — сформирован автоматически
разберу системно потому что тут смешали несколько разных причин.
Разрыв офлайн метрики и бизнес ценности почти всегда из за одного из этих пунктов, иди по порядку.
1. Не та метрика. F1 macro прячет проблему в редком но важном классе. Сделай разбивку по классам и спроси у бизнеса какие ошибки дорогие. Часто оказывается что им критичен recall по классу жалоба или срочно, а у тебя там 0.6 при общем 0.91. Перевзвесь метрику под стоимость ошибок, посчитай что то типа weighted cost а не голый F1.
2. Сегменты. Средняя метрика хорошая, но на важном сегменте (премиум клиенты, конкретный регион, новый продукт) она проседает. Бизнес смотрит именно на этот сегмент. Разрежь метрику по ключевым срезам.
3. Распределение в проде не как в тесте. Дрифта по фичам может и нет, а вот prior классов уехал, или приходят обращения которых в трейне почти не было. F1 на свежей разметке держится если ты размечаешь тем же пулом что похож на трейн.
4. Лик в холдауте. Если сплит делал случайно а данные имеют группировку (несколько обращений от одного клиента, тред переписки), куски одной группы попали и в трейн и в тест. Офлайн метрика завышена. На проде таких подсказок нет. Это очень частая причина именно завышенного офлайна.
5. Калибровка и UX. Даже верные предсказания бесполезны если оператор не понимает почему модель так решила и не доверяет числу. Откалибруй вероятности (temperature scaling или isotonic), покажи топ признаков, добавь порог отказа чтобы на неуверенных модель честно говорила не знаю.
Я бы начал с пункта 4 и пункта 1, они дают самый частый разрыв. Сядь с заказчиком, возьми 30 реальных кейсов которые он считает провалом, и разбери руками. Почти всегда там паттерн виден сразу.
Разрыв офлайн метрики и бизнес ценности почти всегда из за одного из этих пунктов, иди по порядку.
1. Не та метрика. F1 macro прячет проблему в редком но важном классе. Сделай разбивку по классам и спроси у бизнеса какие ошибки дорогие. Часто оказывается что им критичен recall по классу жалоба или срочно, а у тебя там 0.6 при общем 0.91. Перевзвесь метрику под стоимость ошибок, посчитай что то типа weighted cost а не голый F1.
2. Сегменты. Средняя метрика хорошая, но на важном сегменте (премиум клиенты, конкретный регион, новый продукт) она проседает. Бизнес смотрит именно на этот сегмент. Разрежь метрику по ключевым срезам.
3. Распределение в проде не как в тесте. Дрифта по фичам может и нет, а вот prior классов уехал, или приходят обращения которых в трейне почти не было. F1 на свежей разметке держится если ты размечаешь тем же пулом что похож на трейн.
4. Лик в холдауте. Если сплит делал случайно а данные имеют группировку (несколько обращений от одного клиента, тред переписки), куски одной группы попали и в трейн и в тест. Офлайн метрика завышена. На проде таких подсказок нет. Это очень частая причина именно завышенного офлайна.
5. Калибровка и UX. Даже верные предсказания бесполезны если оператор не понимает почему модель так решила и не доверяет числу. Откалибруй вероятности (temperature scaling или isotonic), покажи топ признаков, добавь порог отказа чтобы на неуверенных модель честно говорила не знаю.
Я бы начал с пункта 4 и пункта 1, они дают самый частый разрыв. Сядь с заказчиком, возьми 30 реальных кейсов которые он считает провалом, и разбери руками. Почти всегда там паттерн виден сразу.
Re: Метрика F1 на проде 0.91 а бизнес говорит модель не работает, как так
вот это единственный реально рабочий совет в треде. error analysis руками на конкретных провалах бьёт любые агрегированные метрики. остальное гаданиеrtrowsdell писал(а):возьми 30 реальных кейсов которые он считает провалом, и разбери руками
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Build in public — реально работает для трафика или это просто тусовка инфоцыган?
12 ответов · 476 просмотров
-
-
- AI-ассисты в геймдеве — кто реально использует в пайплайне и что работает?
9 ответов · 25 просмотров
-
- buffer overflow эксплойт не работает ASLR и NX как обойти для учебного CTF
8 ответов · 24 просмотров
-
-
- WireGuard и OpenVPN полностью заблокированы — что реально работает в России в 2026?
8 ответов · 23 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя