Отдали разметку 180к фоток подрядчику за 400к рублей и получили мусор, разбор факапа

Рейтинг: 48.7% · 7 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
Tcraw62981
Сообщения: 41
Зарегистрирован: 11 май 2026, 21:02

Отдали разметку 180к фоток подрядчику за 400к рублей и получили мусор, разбор факапа

Сообщение Tcraw62981 »

Расскажу как мы красиво слили месяц и 400 с лишним тысяч, может кого убережёт.

Задача: классификация дефектов на фото металлопроката, 14 классов, фотки с цеховых камер. Своих рук на разметку нет, взяли подрядчика по рекомендации, договорились на 180к изображений по 2.3 рубля за штуку, срок 3 недели. ТЗ написали на 2 страницы с примерами, созвонились, все кивают, поехали.

Через 3 недели приезжает выгрузка. Начали выборочно проверять и волосы зашевелились. Царапину от окалины отличить не могут, класс прочее у них занимает 31% датасета (по нашим прикидкам должно быть процентов 8), на части фоток разметка просто рандомная, видимо под конец срока досыпали как попало. Посадили двух своих инженеров перепроверить пересечение в 2000 фоток, каппа Коэна с подрядчиком 0.34. Это уровень почти рандома.

Деньги вернуть не вышло, в договоре приёмка описана мутно, формально объём сдан. Сейчас переразмечаем сами в CVAT силами стажёров, обучили их за 2 дня на 300 эталонных примерах, согласие между ними 0.78, то есть задача размечаемая, просто подрядчику было пофиг.

Выводы для себя: голден сет из 500 примеров делать ДО старта и зашивать в поток как ханипоты, приёмка партиями по 10% с правом вернуть партию, перекрытие 3 на спорных классах, и в договор метрику качества с конкретным числом. Кто отдавал разметку на сторону, как у вас устроен контроль? И есть ли вообще в 2026 подрядчики, которым не надо стоять над душой?
👍1 ❤️ 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — icu2
Проходили такое два раза, теперь делаем иначе и стало сильно легче. Никогда не отдаём весь объём сразу. Пилот на 2000 штук, по нему считаем качество против голден сета, если ниже порога, до свидания. Дальше партии по 15-20к, в каждую подмешано 3-5% ханипотов, аннотатор с точностью ниже 90% на ханипотах вылетает из проекта автоматом, у нас это прикручено к Label Studio через вебхуки. И отдельный ч…
Перейти к ответу →
Аватара пользователя
nixos_andy
Сообщения: 61
Зарегистрирован: 11 май 2026, 03:44

Re: Отдали разметку 180к фоток подрядчику за 400к рублей и получили мусор, разбор факапа

Сообщение nixos_andy »

ну так а чего вы ждали. ТЗ на 2 страницы для 14 классов дефектов это смешно, у нас на 6 классов гайдлайн на 40 страниц с деревом решений и сотней пограничных примеров, и всё равно раз в неделю всплывает кейс которого там нет. вы отдали задачу, в которой ваши же инженеры должны 2 дня учиться, людям за 2.3 рубля за фотку. результат закономерный
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
photon1952
Сообщения: 13
Зарегистрирован: 11 май 2026, 01:28

Re: Отдали разметку 180к фоток подрядчику за 400к рублей и получили мусор, разбор факапа

Сообщение photon1952 »

@nixos_andy, каппа 0.34 это не разметка, это генератор случайных чисел с зарплатой, лол
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
icu2
Сообщения: 65
Зарегистрирован: 14 май 2026, 06:04

Re: Отдали разметку 180к фоток подрядчику за 400к рублей и получили мусор, разбор факапа

Сообщение icu2 »

✔ Лучший ответ — сформирован автоматически
Проходили такое два раза, теперь делаем иначе и стало сильно легче.

Никогда не отдаём весь объём сразу. Пилот на 2000 штук, по нему считаем качество против голден сета, если ниже порога, до свидания. Дальше партии по 15-20к, в каждую подмешано 3-5% ханипотов, аннотатор с точностью ниже 90% на ханипотах вылетает из проекта автоматом, у нас это прикручено к Label Studio через вебхуки. И отдельный человек с нашей стороны час в день смотрит случайную выборку, это дешевле, чем потом месяц переразмечать.

По деньгам выходит не 2.3 рубля, а ближе к 4-5 с учётом перекрытия и контроля. Но 4 рубля за рабочую разметку лучше, чем 2.3 за мусор, вы это сейчас на себе и посчитали.

В договор пишите конкретно: точность на скрытом голден сете не ниже 95%, иначе партия не принимается. Нормальные подрядчики соглашаются спокойно, отказываются ровно те, кто планирует досыпать рандом под дедлайн.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
async2010
Сообщения: 22
Зарегистрирован: 11 май 2026, 18:37

Re: Отдали разметку 180к фоток подрядчику за 400к рублей и получили мусор, разбор факапа

Сообщение async2010 »

а почему не толока? там же копейки за такое
👍1 ❤️ 🔥 😄 🤔1
Аватара пользователя
bunmaker
Сообщения: 40
Зарегистрирован: 11 май 2026, 23:26

Re: Отдали разметку 180к фоток подрядчику за 400к рублей и получили мусор, разбор факапа

Сообщение bunmaker »

@nixos_andy, выше уже написали, что задача требует обучения даже для инженеров. краудом такое размечать это получить ту же каппу 0.34, только дешевле. крауд норм для котики против собачек, дефекты проката туда нести бессмысленно
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
Kutz
Сообщения: 71
Зарегистрирован: 16 май 2026, 02:21

Re: Отдали разметку 180к фоток подрядчику за 400к рублей и получили мусор, разбор факапа

Сообщение Kutz »

меня больше другое смущает. вы фотки с производства отдали стороннему подрядчику, а безопасники ваши в курсе вообще? у нас за такое можно огрести сильнее, чем за слитые 400к, металлургия обычно трясётся над любыми данными из цеха. NDA хоть был?
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
emacs_ops
Сообщения: 4
Зарегистрирован: 14 май 2026, 07:16

Re: Отдали разметку 180к фоток подрядчику за 400к рублей и получили мусор, разбор факапа

Сообщение emacs_ops »

Раз уж переделываете сами, попробуйте предразметку моделью. Обучите на тех 300 эталонных плюс что стажёры успели, дальше модель размечает, люди только верифицируют и правят. У нас на похожей задаче (дефекты на ПЭТ-таре) это срезало ручную работу раза в 4, верифицировать сильно быстрее, чем размечать с нуля. Плюс активное обучение: первыми на проверку идут фотки, где модель не уверена. Из коробки такое есть в CVAT через nuclio, ну или скриптами вокруг Label Studio.
👍1 ❤️2 🔥 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость