Как мониторить дрейф данных в проде без Datadog и дорогих SaaS — опыт с Evidently и MLflow

Рейтинг: 37.6% · 5 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
liza5794
Сообщения: 6
Зарегистрирован: Пн май 11, 2026 12:15 am

Как мониторить дрейф данных в проде без Datadog и дорогих SaaS — опыт с Evidently и MLflow

Сообщение liza5794 »

Запустили модель (градиентный бустинг для скоринга заявок) в прод два месяца назад. Недавно заметили что качество просело — accuracy упала с 0.89 до 0.83, но никто не поймал это вовремя потому что нет нормального мониторинга. Datadog ML Monitoring — дорого (нам посчитали ~800$/мес для нашего объёма). Смотрю на open-source варианты: Evidently, Nannyml, что-то на базе MLflow. Кто что использует в реальных проектах в СНГ? Интересует именно мониторинг дрейфа фичей и предсказаний, не просто логи.
👍1 ❤️1 🔥1 😄 🤔
✔ Лучший ответ сформирован автоматически — webproxy2636
Мы используем Evidently + Grafana + PostgreSQL, всё self-hosted на нашем железе. Схема такая: раз в час запускается скрипт который берёт батч продовых предсказаний за последний час, сравнивает распределение фичей с референсным (данные из обучающей выборки), считает PSI и Wasserstein distance через Evidently, результаты пишет в Postgres, Grafana дашборд с алертами в Telegram если PSI > 0.2 по ключ…
Перейти к ответу →
Аватара пользователя
webproxy2636
Сообщения: 11
Зарегистрирован: Вс май 10, 2026 10:00 pm

Re: Как мониторить дрейф данных в проде без Datadog и дорогих SaaS — опыт с Evidently и MLflow

Сообщение webproxy2636 »

✔ Лучший ответ — сформирован автоматически
Мы используем Evidently + Grafana + PostgreSQL, всё self-hosted на нашем железе. Схема такая: раз в час запускается скрипт который берёт батч продовых предсказаний за последний час, сравнивает распределение фичей с референсным (данные из обучающей выборки), считает PSI и Wasserstein distance через Evidently, результаты пишет в Postgres, Grafana дашборд с алертами в Telegram если PSI > 0.2 по ключевым фичам. Всё это поднялось за 2 дня, сейчас работает без проблем уже полгода. Evidently бесплатный, стоимость инфры — копейки.
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
kira_pro
Сообщения: 2
Зарегистрирован: Пт май 15, 2026 6:06 am

Re: Как мониторить дрейф данных в проде без Datadog и дорогих SaaS — опыт с Evidently и MLflow

Сообщение kira_pro »

NannyML стоит рассмотреть отдельно — у него есть CBPE (Confidence-Based Performance Estimation), то есть он умеет оценивать деградацию метрик даже без ground truth меток. Для скорингового сценария это золото: вы видите просадку задолго до того как накопятся реальные метки (у вас же лаг между выдачей кредита и результатом?). Evidently это не умеет из коробки. У NannyML есть бесплатный open-source, cloud версия платная.
👍2 ❤️ 🔥1 😄1 🤔
Аватара пользователя
roman_js5
Сообщения: 26
Зарегистрирован: Пн май 11, 2026 12:17 am

Re: Как мониторить дрейф данных в проде без Datadog и дорогих SaaS — опыт с Evidently и MLflow

Сообщение roman_js5 »

MLflow 2.x сейчас тоже неплохо прокачали в сторону мониторинга — там появился MLflow Tracing и AI monitoring раздел. Но честно говоря для дрейфа фичей это всё ещё не основной инструмент, он лучше для трекинга экспериментов и версионирования моделей. Комбо которое видел у нескольких команд: MLflow для lifecycle + Evidently для мониторинга дрейфа + Prometheus/Grafana для operational метрик (latency, throughput).
👍1 ❤️ 🔥1 😄 🤔
Аватара пользователя
petya_flux37
Сообщения: 9
Зарегистрирован: Чт май 14, 2026 1:15 pm

Re: Как мониторить дрейф данных в проде без Datadog и дорогих SaaS — опыт с Evidently и MLflow

Сообщение petya_flux37 »

Важный момент который часто игнорируют: мониторинг дрейфа предсказаний (output drift) часто информативнее чем мониторинг фичей. Если распределение ваших скор-предсказаний поехало — это сигнал раньше чем вы найдёте какая конкретно фича виновата. В Evidently это `DataDriftPreset` на таргет/предсказания — добавьте в первую очередь.
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
ivan2655
Сообщения: 5
Зарегистрирован: Пт май 15, 2026 10:11 am

Re: Как мониторить дрейф данных в проде без Datadog и дорогих SaaS — опыт с Evidently и MLflow

Сообщение ivan2655 »

@cloud77, Для вашего конкретного случая со скорингом: обязательно смотрите на PSI (Population Stability Index) — это индустриальный стандарт в кредитном скоринге. PSI < 0.1 — стабильно, 0.1-0.2 — небольшой дрейф, > 0.2 — пора переобучать. Evidently считает PSI нативно. И ещё: настройте алерты не только на дрейф но и на объём данных — если поток заявок упал на 50% это тоже аномалия которую надо ловить.
👍2 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость