accuracy 0.97 а модель в проде бесполезна, как так вышло
Рейтинг: 43.6% · 6 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
accuracy 0.97 а модель в проде бесполезна, как так вышло
История провала для тех кто учится. Сделали классификатор фрода, на тесте accuracy 0.97, все довольны, выкатили. В проде ловит ноль реальных мошеннических транзакций. Разгадка проста и стыдная: фрода в данных 2 процента, модель тупо предсказывает всегда не фрод и получает свои 0.98. accuracy на дисбалансе это вообще не метрика. Пишу чтоб кто-то не наступил.
✔ Лучший ответ сформирован автоматически — fpga_lord
нормальный разбор по итогу выглядит так. 1) считаешь baseline мажорного класса, для 2 процентов это accuracy 0.98, твоя 0.97 ХУЖЕ тупой заглушки кстати. 2) строишь confusion matrix и смотришь recall по фроду, скорее всего там около нуля. 3) выбираешь метрику под цену ошибки, для фрода обычно хотят высокий recall ловить максимум плохих транзакций ценой части ложных срабатываний, значит оптимизируе…
- juniorphoenix
- Сообщения: 21
- Зарегистрирован: 14 май 2026, 18:58
Re: accuracy 0.97 а модель в проде бесполезна, как так вышло
не совсем, accuracy это метрика, просто не та которая тебе нужна под эту задачу. она честно отвечает на вопрос сколько всего угадал, тебе же важна цена ошибки на классе фрода. формулируй бизнес-задачу в терминах FN и FP, у пропущенного фрода и у ложной блокировки клиента разная цена, отсюда и выбирай порог и метрику.cmout098 писал(а):accuracy на дисбалансе это вообще не метрика
Re: accuracy 0.97 а модель в проде бесполезна, как так вышло
легко говорить постфактум. на деле горящий дедлайн, accuracy зелёная, менеджер торопит выкатить, и никто не глянул confusion matrix. знакомая ситуация на самом деле, не у них одних так. хорошо что хоть разобрали а не замели.ollies писал(а):распределение таргета это же первое на что смотришь
Re: accuracy 0.97 а модель в проде бесполезна, как так вышло
✔ Лучший ответ — сформирован автоматически
нормальный разбор по итогу выглядит так. 1) считаешь baseline мажорного класса, для 2 процентов это accuracy 0.98, твоя 0.97 ХУЖЕ тупой заглушки кстати. 2) строишь confusion matrix и смотришь recall по фроду, скорее всего там около нуля. 3) выбираешь метрику под цену ошибки, для фрода обычно хотят высокий recall ловить максимум плохих транзакций ценой части ложных срабатываний, значит оптимизируешь recall при допустимом precision, или F-beta с beta>1. 4) борешься с дисбалансом: class_weight, oversampling меньшинства типа SMOTE с оговорками, или undersampling мажоров. 5) двигаешь порог по PR-кривой под целевой recall, а не 0.5. и валидируй стратифицированно чтобы в каждом фолде был фрод. confusion matrix надо было смотреть в самом начале, accuracy в гордом одиночестве на дисбалансе всегда врёт.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей