История как мы полгода пилили RAG который никто не использует
Рейтинг: 54.8% · 18 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- grumpylurker
- Сообщения: 63
- Зарегистрирован: 15 май 2026, 01:41
История как мы полгода пилили RAG который никто не использует
Полгода командой пилили RAG по внутренней базе знаний компании, запустили, и через месяц он мёртвый, заходов почти ноль. Расскажу историю провала чтобы вы не наступили. База на 40к документов, эмбеддинги bge-m3, векторка qdrant, ретривер top-k 5, генератор на локальной 32B. Демки были красивые, начальство хлопало. А люди не пользуются и идут спрашивать коллег в чат как раньше. Сидим разбираем что пошло не так, делюсь по горячим следам.
✔ Лучший ответ сформирован автоматически — b1llyn0m
расскажу что мы в итоге накопали, разбор уже сделали, может кому сэкономит полгода. Главная ошибка стратегическая: мы строили то что технически интересно, а не то что болит у людей. Не пошли к будущим юзерам спросить какие вопросы они реально задают. Взяли базу, накидали эмбеддингов, сделали красивую демку на удобных вопросах. Это убивает проект чаще чем любой баг. Теперь по технике, в порядке вк…
- juniorstack
- Сообщения: 62
- Зарегистрирован: 12 май 2026, 12:04
Re: История как мы полгода пилили RAG который никто не использует
@grumpylurker, дай угадаю, чанкинг по 512 токенов наугад и поиск возвращает обрывки без контекста? самая частая причина почему RAG отвечает мимо
Re: История как мы полгода пилили RAG который никто не использует
люди не пользуются потому что один раз получили уверенный неправильный ответ и всё, доверие убито. RAG который иногда галлюцинирует с уверенным тоном хуже чем его отсутствие. это не техническая проблема а проблема доверия
Re: История как мы полгода пилили RAG который никто не использует
стек нормальный, проблема почти точно не в нём. проблема в том что вы мерили retrieval offline а не реальные вопросы юзеров. на каких запросах вы вообще тестировали, на своих придуманных или на настоящих из чата поддержки?grumpylurker писал(а):База на 40к документов, эмбеддинги bge-m3, векторка qdrant
Re: История как мы полгода пилили RAG который никто не использует
✔ Лучший ответ — сформирован автоматически
расскажу что мы в итоге накопали, разбор уже сделали, может кому сэкономит полгода.
Главная ошибка стратегическая: мы строили то что технически интересно, а не то что болит у людей. Не пошли к будущим юзерам спросить какие вопросы они реально задают. Взяли базу, накидали эмбеддингов, сделали красивую демку на удобных вопросах. Это убивает проект чаще чем любой баг.
Теперь по технике, в порядке вклада в провал.
Чанкинг. Резали по 512 токенов фиксированно поперёк смысла. Таблицы рвались, регламент терял нумерацию пунктов, ответ собирался из обрывков. Перешли на разбивку по структуре документа (заголовки, разделы) с оверлапом, стало заметно лучше. Для таблиц вообще отдельная обработка.
Качество базы. 40к документов, а актуальных дай бог 15к. Дубли, устаревшие версии, отсканированные pdf где текст кривой после ocr. Ретривер честно находил три версии регламента, генератор брал случайную. Почистили, сделали приоритет по дате, добавили метаданные актуально/архив.
Оценка. Мы НЕ мерили качество на реальных вопросах. Собрали 150 настоящих вопросов из чата поддержки, разметили правильные ответы, и оказалось retrieval@5 всего 0.52. То есть в половине случаев нужного документа даже не было в выдаче. Без этого числа мы полгода думали что всё ок.
Что чинило retrieval: гибридный поиск (bm25 + вектора) вместо чисто векторного, потому что по точным терминам и артикулам вектора мажут. Плюс reranker (bge-reranker) поверх top-20, оставляли top-5 после переранжирования. retrieval@5 поднялся до 0.81.
Галлюцинации и доверие. Добавили обязательные ссылки на источник в каждом ответе и порог: если score ретривера низкий, модель честно говорит не нашёл, обратитесь к коллеге. Лучше отказ чем уверенное враньё.
UX и интеграция. Отдельный портал куда надо ЗАХОДИТЬ это смерть. Люди живут в корпоративном мессенджере. Засунули бота прямо туда, ответы пошли вверх в разы просто от смены точки входа.
Итог: техника была вторична. Убило отсутствие реальных вопросов на старте, грязная база и то что мы не мерили retrieval на настоящих данных. Сейчас перезапускаем, но осадочек на полгода.
Главная ошибка стратегическая: мы строили то что технически интересно, а не то что болит у людей. Не пошли к будущим юзерам спросить какие вопросы они реально задают. Взяли базу, накидали эмбеддингов, сделали красивую демку на удобных вопросах. Это убивает проект чаще чем любой баг.
Теперь по технике, в порядке вклада в провал.
Чанкинг. Резали по 512 токенов фиксированно поперёк смысла. Таблицы рвались, регламент терял нумерацию пунктов, ответ собирался из обрывков. Перешли на разбивку по структуре документа (заголовки, разделы) с оверлапом, стало заметно лучше. Для таблиц вообще отдельная обработка.
Качество базы. 40к документов, а актуальных дай бог 15к. Дубли, устаревшие версии, отсканированные pdf где текст кривой после ocr. Ретривер честно находил три версии регламента, генератор брал случайную. Почистили, сделали приоритет по дате, добавили метаданные актуально/архив.
Оценка. Мы НЕ мерили качество на реальных вопросах. Собрали 150 настоящих вопросов из чата поддержки, разметили правильные ответы, и оказалось retrieval@5 всего 0.52. То есть в половине случаев нужного документа даже не было в выдаче. Без этого числа мы полгода думали что всё ок.
Что чинило retrieval: гибридный поиск (bm25 + вектора) вместо чисто векторного, потому что по точным терминам и артикулам вектора мажут. Плюс reranker (bge-reranker) поверх top-20, оставляли top-5 после переранжирования. retrieval@5 поднялся до 0.81.
Галлюцинации и доверие. Добавили обязательные ссылки на источник в каждом ответе и порог: если score ретривера низкий, модель честно говорит не нашёл, обратитесь к коллеге. Лучше отказ чем уверенное враньё.
UX и интеграция. Отдельный портал куда надо ЗАХОДИТЬ это смерть. Люди живут в корпоративном мессенджере. Засунули бота прямо туда, ответы пошли вверх в разы просто от смены точки входа.
Итог: техника была вторична. Убило отсутствие реальных вопросов на старте, грязная база и то что мы не мерили retrieval на настоящих данных. Сейчас перезапускаем, но осадочек на полгода.
Re: История как мы полгода пилили RAG который никто не использует
это и есть весь ваш провал в одной цифре. если ретривер не достаёт документ, генератор хоть gpt-5 поставь, он сочинит. все пляшут вокруг LLM а узкое место всегда retrieval. спасибо что честно с числамиb1llyn0m писал(а):retrieval@5 всего 0.52. То есть в половине случаев нужного документа даже не было в выдаче
- photon1952
- Сообщения: 13
- Зарегистрирован: 11 май 2026, 01:28
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Полгода фрилансу — ни одного клиента из бирж. Где вы реально находите заказы в 2026?
10 ответов · 1190 просмотров
-
- Свалил с Unity на Godot 4.4 после истории с runtime fee — спустя полгода честно делюсь
17 ответов · 833 просмотров
-
-
-
- Третья мёртвая microSD на Raspberry Pi 5 за полгода. Всё, перехожу на NVMe, ловите грабли
9 ответов · 732 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость