accuracy 0.97 а модель в проде бесполезна, как так вышло

Рейтинг: 43.6% · 6 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
cmout098
Сообщения: 15
Зарегистрирован: 11 май 2026, 00:49

accuracy 0.97 а модель в проде бесполезна, как так вышло

Сообщение cmout098 »

История провала для тех кто учится. Сделали классификатор фрода, на тесте accuracy 0.97, все довольны, выкатили. В проде ловит ноль реальных мошеннических транзакций. Разгадка проста и стыдная: фрода в данных 2 процента, модель тупо предсказывает всегда не фрод и получает свои 0.98. accuracy на дисбалансе это вообще не метрика. Пишу чтоб кто-то не наступил.
👍2 ❤️1 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — fpga_lord
нормальный разбор по итогу выглядит так. 1) считаешь baseline мажорного класса, для 2 процентов это accuracy 0.98, твоя 0.97 ХУЖЕ тупой заглушки кстати. 2) строишь confusion matrix и смотришь recall по фроду, скорее всего там около нуля. 3) выбираешь метрику под цену ошибки, для фрода обычно хотят высокий recall ловить максимум плохих транзакций ценой части ложных срабатываний, значит оптимизируе…
Перейти к ответу →
Аватара пользователя
mjp1982
Сообщения: 55
Зарегистрирован: 11 май 2026, 04:28

Re: accuracy 0.97 а модель в проде бесполезна, как так вышло

Сообщение mjp1982 »

@cmout098, классика. на дисбалансе смотрят precision recall и f1 по классу меньшинства, а не общую точность. ещё лучше PR-AUC, ROC-AUC на сильном перекосе тоже приукрашивает картину.
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
navspy
Сообщения: 60
Зарегистрирован: 12 май 2026, 02:48

Re: accuracy 0.97 а модель в проде бесполезна, как так вышло

Сообщение navspy »

baseline всегда предсказывающий мажорный класс это первое что надо считать перед любой моделью. если твоя модель его не бьёт по нужной метрике, у тебя нет модели
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
juniorphoenix
Сообщения: 21
Зарегистрирован: 14 май 2026, 18:58

Re: accuracy 0.97 а модель в проде бесполезна, как так вышло

Сообщение juniorphoenix »

cmout098 писал(а):accuracy на дисбалансе это вообще не метрика
не совсем, accuracy это метрика, просто не та которая тебе нужна под эту задачу. она честно отвечает на вопрос сколько всего угадал, тебе же важна цена ошибки на классе фрода. формулируй бизнес-задачу в терминах FN и FP, у пропущенного фрода и у ложной блокировки клиента разная цена, отсюда и выбирай порог и метрику.
👍1 ❤️2 🔥 😄 🤔1
Аватара пользователя
archdev
Сообщения: 9
Зарегистрирован: 18 май 2026, 00:33

Re: accuracy 0.97 а модель в проде бесполезна, как так вышло

Сообщение archdev »

а порог классификации крутили или 0.5 по дефолту оставили? на дисбалансе дефолтный 0.5 почти всегда мимо, двигают порог по PR кривой под нужный recall
👍 ❤️1 🔥2 😄 🤔
Аватара пользователя
ollies
Сообщения: 33
Зарегистрирован: 11 май 2026, 16:28

Re: accuracy 0.97 а модель в проде бесполезна, как так вышло

Сообщение ollies »

@mjp1982, ну такое, два процента позитивов и вы это в проде заметили а не на этапе EDA. распределение таргета это же первое на что смотришь открыв датасет
👍 ❤️2 🔥 😄 🤔
Аватара пользователя
vlad1
Сообщения: 12
Зарегистрирован: 11 май 2026, 20:16

Re: accuracy 0.97 а модель в проде бесполезна, как так вышло

Сообщение vlad1 »

ollies писал(а):распределение таргета это же первое на что смотришь
легко говорить постфактум. на деле горящий дедлайн, accuracy зелёная, менеджер торопит выкатить, и никто не глянул confusion matrix. знакомая ситуация на самом деле, не у них одних так. хорошо что хоть разобрали а не замели.
👍2 ❤️1 🔥 😄 🤔
Аватара пользователя
fpga_lord
Сообщения: 56
Зарегистрирован: 16 май 2026, 06:00

Re: accuracy 0.97 а модель в проде бесполезна, как так вышло

Сообщение fpga_lord »

✔ Лучший ответ — сформирован автоматически
нормальный разбор по итогу выглядит так. 1) считаешь baseline мажорного класса, для 2 процентов это accuracy 0.98, твоя 0.97 ХУЖЕ тупой заглушки кстати. 2) строишь confusion matrix и смотришь recall по фроду, скорее всего там около нуля. 3) выбираешь метрику под цену ошибки, для фрода обычно хотят высокий recall ловить максимум плохих транзакций ценой части ложных срабатываний, значит оптимизируешь recall при допустимом precision, или F-beta с beta>1. 4) борешься с дисбалансом: class_weight, oversampling меньшинства типа SMOTE с оговорками, или undersampling мажоров. 5) двигаешь порог по PR-кривой под целевой recall, а не 0.5. и валидируй стратифицированно чтобы в каждом фолде был фрод. confusion matrix надо было смотреть в самом начале, accuracy в гордом одиночестве на дисбалансе всегда врёт.
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
hommel
Сообщения: 2
Зарегистрирован: 11 май 2026, 01:43

Re: accuracy 0.97 а модель в проде бесполезна, как так вышло

Сообщение hommel »

сохранил в закладки, скидываю джунам как пример почему одну метрику смотреть нельзя
👍1 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость