Разметка данных в 2026, цены конские, качество дно. как вы вообще живёте
Рейтинг: 34.2% · 2 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Разметка данных в 2026, цены конские, качество дно. как вы вообще живёте
Накипело. Нужно разметить 40к реплик для классификатора интентов (банковская тематика, 18 классов). Обзвонил агентства, просят от 9 до 25 рублей за объект с перекрытием 3. То есть от 360к за датасет, который потом всё равно перепроверять. Толока для мелких заказчиков фактически закрыта, остались корпоративные договоры.
Попробовали разметить кусок через фрилансеров с кворка. 2000 реплик, согласованность между двумя разметчиками 0.62 по каппе. Это мусор, а не разметка.
Кто как выкручивается? LLM-разметка реально работает или самообман?
Попробовали разметить кусок через фрилансеров с кворка. 2000 реплик, согласованность между двумя разметчиками 0.62 по каппе. Это мусор, а не разметка.
Кто как выкручивается? LLM-разметка реально работает или самообман?
✔ Лучший ответ сформирован автоматически — kernel_veteran
@kakazulu, llm разметка работает, но с оговорками. мы гоняем Qwen3-32B локально на 2x3090, structured output через vllm, потом сэмплируем 10% и проверяем руками. на простых классах согласованность с экспертом 0.9+, на спорных (жалоба против претензии например) проседает до 0.7. по деньгам выходит раз в 15 дешевле агентства
- kernel_veteran
- Сообщения: 63
- Зарегистрирован: 11 май 2026, 06:09
Re: Разметка данных в 2026, цены конские, качество дно. как вы вообще живёте
✔ Лучший ответ — сформирован автоматически
@kakazulu, llm разметка работает, но с оговорками. мы гоняем Qwen3-32B локально на 2x3090, structured output через vllm, потом сэмплируем 10% и проверяем руками. на простых классах согласованность с экспертом 0.9+, на спорных (жалоба против претензии например) проседает до 0.7. по деньгам выходит раз в 15 дешевле агентства
Re: Разметка данных в 2026, цены конские, качество дно. как вы вообще живёте
@kernel_veteran, 0.62 каппы это не фрилансеры плохие, это инструкция плохая. если в гайде нет 30+ примеров краевых случаев, любой разметчик будет гадать. мы свою инструкцию переписывали 4 раза, после каждой итерации каппа росла. да, это недели работы, никто не любит этим заниматься, поэтому у всех и мусор
Re: Разметка данных в 2026, цены конские, качество дно. как вы вообще живёте
наняли двух студенток с лингвистики за 55к в месяц каждой, подняли label studio на своём сервере. за 2.5 месяца разметили 30к объектов, спорные кейсы обсуждали в чатике. дороже llm, дешевле агентств, и качество контролируемое. если данных не миллионы, этот путь рабочий
Re: Разметка данных в 2026, цены конские, качество дно. как вы вообще живёте
18 классов интентов для банка, хах. ставлю что половина классов у вас пересекается и сами авторы таксономии не могут договориться, куда падает узнать остаток по кредитке. сначала почините классы, потом размечайте, иначе хоть людьми, хоть гптой будет каша
Re: Разметка данных в 2026, цены конские, качество дно. как вы вообще живёте
@kernel_veteran, а через GigaChat API кто-нибудь размечал? у сбера вроде дешёвый прайс на лайт модель, интересно как по качеству против локального квена
Re: Разметка данных в 2026, цены конские, качество дно. как вы вообще живёте
вы все упускаете юридическую часть. разметку через api опенаи нельзя использовать для обучения конкурирующих моделей по их тосу. с локальным квеном ок, там апач. мелочь, но комплаенс в банке вам за гпт спасибо не скажет
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Autovacuum не успевает, bloat растёт, таблица 200ГБ а живых данных 30. Кто как тюнит?
11 ответов · 1235 просмотров
-
-
- Утечки данных: компании скрывают факт взлома по 40+ дней — это норма или нарушение?
9 ответов · 23 просмотров
-
-
- Как мониторить дрейф данных в проде без Datadog и дорогих SaaS — опыт с Evidently и MLflow
5 ответов · 17 просмотров
-
- Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных
4 ответов · 16 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость