accuracy 0.97 а модель в проде бесполезна, как так вышло

cmout098 · Сообщение **cmout098** » 01 июн 2026, 12:15

История провала для тех кто учится. Сделали классификатор фрода, на тесте accuracy 0.97, все довольны, выкатили. В проде ловит ноль реальных мошеннических транзакций. Разгадка проста и стыдная: фрода в данных 2 процента, модель тупо предсказывает всегда не фрод и получает свои 0.98. accuracy на дисбалансе это вообще не метрика. Пишу чтоб кто-то не наступил.

mjp1982 · Сообщение **mjp1982** » 01 июн 2026, 13:54

@cmout098, классика. на дисбалансе смотрят precision recall и f1 по классу меньшинства, а не общую точность. ещё лучше PR-AUC, ROC-AUC на сильном перекосе тоже приукрашивает картину.

navspy · Сообщение **navspy** » 01 июн 2026, 15:10

baseline всегда предсказывающий мажорный класс это первое что надо считать перед любой моделью. если твоя модель его не бьёт по нужной метрике, у тебя нет модели

juniorphoenix

cmout098 писал(а):accuracy на дисбалансе это вообще не метрика

не совсем, accuracy это метрика, просто не та которая тебе нужна под эту задачу. она честно отвечает на вопрос сколько всего угадал, тебе же важна цена ошибки на классе фрода. формулируй бизнес-задачу в терминах FN и FP, у пропущенного фрода и у ложной блокировки клиента разная цена, отсюда и выбирай порог и метрику.

archdev · Сообщение **archdev** » 01 июн 2026, 19:09

а порог классификации крутили или 0.5 по дефолту оставили? на дисбалансе дефолтный 0.5 почти всегда мимо, двигают порог по PR кривой под нужный recall

ollies · Сообщение **ollies** » 01 июн 2026, 20:06

@mjp1982, ну такое, два процента позитивов и вы это в проде заметили а не на этапе EDA. распределение таргета это же первое на что смотришь открыв датасет

vlad1 · Сообщение **vlad1** » 01 июн 2026, 21:36

ollies писал(а):распределение таргета это же первое на что смотришь

легко говорить постфактум. на деле горящий дедлайн, accuracy зелёная, менеджер торопит выкатить, и никто не глянул confusion matrix. знакомая ситуация на самом деле, не у них одних так. хорошо что хоть разобрали а не замели.

fpga_lord · Сообщение **fpga_lord** » 01 июн 2026, 22:46

нормальный разбор по итогу выглядит так. 1) считаешь baseline мажорного класса, для 2 процентов это accuracy 0.98, твоя 0.97 ХУЖЕ тупой заглушки кстати. 2) строишь confusion matrix и смотришь recall по фроду, скорее всего там около нуля. 3) выбираешь метрику под цену ошибки, для фрода обычно хотят высокий recall ловить максимум плохих транзакций ценой части ложных срабатываний, значит оптимизируешь recall при допустимом precision, или F-beta с beta>1. 4) борешься с дисбалансом: class_weight, oversampling меньшинства типа SMOTE с оговорками, или undersampling мажоров. 5) двигаешь порог по PR-кривой под целевой recall, а не 0.5. и валидируй стратифицированно чтобы в каждом фолде был фрод. confusion matrix надо было смотреть в самом начале, accuracy в гордом одиночестве на дисбалансе всегда врёт.

hommel · Сообщение **hommel** » 02 июн 2026, 02:45

сохранил в закладки, скидываю джунам как пример почему одну метрику смотреть нельзя

accuracy 0.97 а модель в проде бесполезна, как так вышло

accuracy 0.97 а модель в проде бесполезна, как так вышло

Re: accuracy 0.97 а модель в проде бесполезна, как так вышло

Re: accuracy 0.97 а модель в проде бесполезна, как так вышло

Re: accuracy 0.97 а модель в проде бесполезна, как так вышло

Re: accuracy 0.97 а модель в проде бесполезна, как так вышло

Re: accuracy 0.97 а модель в проде бесполезна, как так вышло

Re: accuracy 0.97 а модель в проде бесполезна, как так вышло

Re: accuracy 0.97 а модель в проде бесполезна, как так вышло

Re: accuracy 0.97 а модель в проде бесполезна, как так вышло

Кто сейчас на конференции