Делаю классификатор для бизнеса (фрод). Аккуратность 99.4%, все довольны. Но классов фрода 0.6%, и я понимаю что это бесполезная цифра. Как объяснять заказчику нормальные метрики, чтобы не утонуть в терминах?
Никогда не показывай accuracy на дисбалансе, это ловушка. Говори про precision и recall человеческим языком: из пойманных мошенников сколько реально мошенники, и сколько реальных мы упустили.
Для бизнеса лучше всего заходит матрица в деньгах. Один пропущенный фрод = X рублей, одна ложная блокировка = Y рублей отвалившегося клиента. Дальше оптимизируешь порог под их экономику, а не под F1.
Перебор порога + смотри на precision-recall кривую, выбирай точку под бизнес-ограничение. Например стейкхолдеры готовы вручную проверять не больше 200 алертов в день — вот тебе и порог.
И зафиксируй метрику на отложенной во времени выборке, а не на случайном сплите. Фрод дрейфует, на random split цифры будут завышены и в проде ты обделаешься.