Как правильно выбрать метрики качества для задачи классификации

vera3833 · Вт июн 02, 2026 3:09 pm

Занимаюсь задачей бинарной классификации — предсказываю отток клиентов. Датасет сильно несбалансированный: 95% — не ушли, 5% — ушли. Модель показывает accuracy 95.2%, но я понимаю что это бессмысленно — она просто всегда предсказывает «не уйдёт». Какие метрики реально нужно смотреть и как их интерпретировать в бизнес-контексте?

filipp_proxy20 · Вт июн 02, 2026 8:51 pm

Для несбалансированных классов accuracy — худшая возможная метрика, вы правильно это поняли. Базовый набор для вашей задачи: Precision (из всех кого модель назвала оттоком, сколько реально ушло), Recall (из всех кто реально ушёл, скольких модель нашла), и F1-score как их гармоническое среднее. Но важнее понять бизнес-контекст: что дороже — пропустить уходящего клиента или потратить ресурсы на ложную тревогу?

yaroslav_hex13 · Вт июн 02, 2026 10:00 pm

ROC-AUC и PR-AUC — два разных взгляда на качество модели. ROC-AUC показывает как модель ранжирует примеры, хорошо работает для сбалансированных данных. PR-AUC (Precision-Recall AUC) намного информативнее при дисбалансе — он фокусируется именно на качестве работы с minority классом. Если PR-AUC вашей модели не сильно выше чем у случайного классификатора (а для 5% класса это 0.05), значит модель не работает.

sqlreact9621 · Ср июн 03, 2026 1:23 am

С практической точки зрения для оттока рекомендую строить матрицу путаницы и считать стоимость ошибок в деньгах. Допустим удержание клиента стоит 500 рублей, а потеря клиента — 5000. Тогда FN (пропущенный отток) стоит 5000, FP (ложная тревога) — 500. Оптимальный порог классификации выбирается не 0.5, а тот при котором суммарные затраты минимальны. Это называется cost-sensitive classification.

daria_spb · Ср июн 03, 2026 2:04 am

Важный момент про балансировку датасета: SMOTE, class_weight='balanced' в sklearn, или oversampling minority класса. Но это влияет на обучение, а не на метрики оценки — тестировать нужно всегда на оригинальном распределении, иначе цифры будут нереалистичные. В sklearn: LogisticRegression(class_weight='balanced') или в PyTorch: WeightedRandomSampler для батчей.

vlad_kernel88 · Ср июн 03, 2026 5:34 am

Ещё добавлю про calibration — откалиброванность вероятностей. Если модель говорит 0.8 для клиента, это должно означать что 80% таких клиентов реально уйдут. Проверяется через reliability diagram (sklearn.calibration.CalibrationDisplay). Для бизнеса важно, потому что по вероятностям принимают решения о приоритетах работы. Если модель не откалибрована — применяйте Platt scaling или isotonic regression.

olga_tcp · Ср июн 03, 2026 8:51 am

Резюме: для вашей задачи смотрите PR-AUC как основную метрику при разработке, F1-score или F-beta (с beta>1 если важнее recall) как операционную метрику, и строите порог через cost-benefit анализ. Accuracy забудьте совсем пока датасет несбалансированный.

Cyberlake

Как правильно выбрать метрики качества для задачи классификации

Как правильно выбрать метрики качества для задачи классификации

Re: Как правильно выбрать метрики качества для задачи классификации

Re: Как правильно выбрать метрики качества для задачи классификации

Re: Как правильно выбрать метрики качества для задачи классификации

Re: Как правильно выбрать метрики качества для задачи классификации

Re: Как правильно выбрать метрики качества для задачи классификации

Re: Как правильно выбрать метрики качества для задачи классификации

Кто сейчас на конференции