Разметка данных в 2026, цены конские, качество дно. как вы вообще живёте

Рейтинг: 34.2% · 2 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
kakazulu
Сообщения: 8
Зарегистрирован: 12 май 2026, 21:20

Разметка данных в 2026, цены конские, качество дно. как вы вообще живёте

Сообщение kakazulu »

Накипело. Нужно разметить 40к реплик для классификатора интентов (банковская тематика, 18 классов). Обзвонил агентства, просят от 9 до 25 рублей за объект с перекрытием 3. То есть от 360к за датасет, который потом всё равно перепроверять. Толока для мелких заказчиков фактически закрыта, остались корпоративные договоры.

Попробовали разметить кусок через фрилансеров с кворка. 2000 реплик, согласованность между двумя разметчиками 0.62 по каппе. Это мусор, а не разметка.

Кто как выкручивается? LLM-разметка реально работает или самообман?
👍 ❤️1 🔥 😄 🤔1
✔ Лучший ответ сформирован автоматически — kernel_veteran
@kakazulu, llm разметка работает, но с оговорками. мы гоняем Qwen3-32B локально на 2x3090, structured output через vllm, потом сэмплируем 10% и проверяем руками. на простых классах согласованность с экспертом 0.9+, на спорных (жалоба против претензии например) проседает до 0.7. по деньгам выходит раз в 15 дешевле агентства
Перейти к ответу →
Аватара пользователя
kernel_veteran
Сообщения: 63
Зарегистрирован: 11 май 2026, 06:09

Re: Разметка данных в 2026, цены конские, качество дно. как вы вообще живёте

Сообщение kernel_veteran »

✔ Лучший ответ — сформирован автоматически
@kakazulu, llm разметка работает, но с оговорками. мы гоняем Qwen3-32B локально на 2x3090, structured output через vllm, потом сэмплируем 10% и проверяем руками. на простых классах согласованность с экспертом 0.9+, на спорных (жалоба против претензии например) проседает до 0.7. по деньгам выходит раз в 15 дешевле агентства
👍1 ❤️ 🔥1 😄 🤔
Аватара пользователя
joed13
Сообщения: 18
Зарегистрирован: 22 май 2026, 03:54

Re: Разметка данных в 2026, цены конские, качество дно. как вы вообще живёте

Сообщение joed13 »

@kernel_veteran, 0.62 каппы это не фрилансеры плохие, это инструкция плохая. если в гайде нет 30+ примеров краевых случаев, любой разметчик будет гадать. мы свою инструкцию переписывали 4 раза, после каждой итерации каппа росла. да, это недели работы, никто не любит этим заниматься, поэтому у всех и мусор
👍2 ❤️ 🔥 😄 🤔
Аватара пользователя
jwil1440
Сообщения: 51
Зарегистрирован: 11 май 2026, 05:07

Re: Разметка данных в 2026, цены конские, качество дно. как вы вообще живёте

Сообщение jwil1440 »

наняли двух студенток с лингвистики за 55к в месяц каждой, подняли label studio на своём сервере. за 2.5 месяца разметили 30к объектов, спорные кейсы обсуждали в чатике. дороже llm, дешевле агентств, и качество контролируемое. если данных не миллионы, этот путь рабочий
👍1 ❤️1 🔥 😄 🤔1
Аватара пользователя
cudauser
Сообщения: 20
Зарегистрирован: 17 май 2026, 22:50

Re: Разметка данных в 2026, цены конские, качество дно. как вы вообще живёте

Сообщение cudauser »

18 классов интентов для банка, хах. ставлю что половина классов у вас пересекается и сами авторы таксономии не могут договориться, куда падает узнать остаток по кредитке. сначала почините классы, потом размечайте, иначе хоть людьми, хоть гптой будет каша
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
valru
Сообщения: 63
Зарегистрирован: 11 май 2026, 05:24

Re: Разметка данных в 2026, цены конские, качество дно. как вы вообще живёте

Сообщение valru »

+1 к боли. ищем разметчиков на медицинский NER, там нужны люди с медобразованием, ценник от 40 рублей за документ и очередь на месяц вперёд. дичь
👍1 ❤️1 🔥 😄1 🤔
Аватара пользователя
BashDev
Сообщения: 3
Зарегистрирован: 16 май 2026, 05:36

Re: Разметка данных в 2026, цены конские, качество дно. как вы вообще живёте

Сообщение BashDev »

@kernel_veteran, а через GigaChat API кто-нибудь размечал? у сбера вроде дешёвый прайс на лайт модель, интересно как по качеству против локального квена
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
merengue
Сообщения: 14
Зарегистрирован: 12 май 2026, 08:55

Re: Разметка данных в 2026, цены конские, качество дно. как вы вообще живёте

Сообщение merengue »

вы все упускаете юридическую часть. разметку через api опенаи нельзя использовать для обучения конкурирующих моделей по их тосу. с локальным квеном ок, там апач. мелочь, но комплаенс в банке вам за гпт спасибо не скажет
👍1 ❤️ 🔥2 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость