История как мы полгода пилили RAG который никто не использует

grumpylurker

Полгода командой пилили RAG по внутренней базе знаний компании, запустили, и через месяц он мёртвый, заходов почти ноль. Расскажу историю провала чтобы вы не наступили. База на 40к документов, эмбеддинги bge-m3, векторка qdrant, ретривер top-k 5, генератор на локальной 32B. Демки были красивые, начальство хлопало. А люди не пользуются и идут спрашивать коллег в чат как раньше. Сидим разбираем что пошло не так, делюсь по горячим следам.

juniorstack · Сообщение **juniorstack** » 27 май 2026, 18:31

@grumpylurker, дай угадаю, чанкинг по 512 токенов наугад и поиск возвращает обрывки без контекста? самая частая причина почему RAG отвечает мимо

pharside · Сообщение **pharside** » 27 май 2026, 20:29

люди не пользуются потому что один раз получили уверенный неправильный ответ и всё, доверие убито. RAG который иногда галлюцинирует с уверенным тоном хуже чем его отсутствие. это не техническая проблема а проблема доверия

mystiga · Сообщение **mystiga** » 27 май 2026, 20:50

grumpylurker писал(а):База на 40к документов, эмбеддинги bge-m3, векторка qdrant

стек нормальный, проблема почти точно не в нём. проблема в том что вы мерили retrieval offline а не реальные вопросы юзеров. на каких запросах вы вообще тестировали, на своих придуманных или на настоящих из чата поддержки?

Macrano · Сообщение **Macrano** » 27 май 2026, 22:52

40к документов и наверняка половина устаревшие, дублирующиеся версии регламентов, старые приказы. мусор на входе = мусор на выходе, никакой ретривер не спасёт от того что в базе три противоречащих версии одного документа

b1llyn0m · Сообщение **b1llyn0m** » 27 май 2026, 23:04

расскажу что мы в итоге накопали, разбор уже сделали, может кому сэкономит полгода.

Главная ошибка стратегическая: мы строили то что технически интересно, а не то что болит у людей. Не пошли к будущим юзерам спросить какие вопросы они реально задают. Взяли базу, накидали эмбеддингов, сделали красивую демку на удобных вопросах. Это убивает проект чаще чем любой баг.

Теперь по технике, в порядке вклада в провал.

Чанкинг. Резали по 512 токенов фиксированно поперёк смысла. Таблицы рвались, регламент терял нумерацию пунктов, ответ собирался из обрывков. Перешли на разбивку по структуре документа (заголовки, разделы) с оверлапом, стало заметно лучше. Для таблиц вообще отдельная обработка.

Качество базы. 40к документов, а актуальных дай бог 15к. Дубли, устаревшие версии, отсканированные pdf где текст кривой после ocr. Ретривер честно находил три версии регламента, генератор брал случайную. Почистили, сделали приоритет по дате, добавили метаданные актуально/архив.

Оценка. Мы НЕ мерили качество на реальных вопросах. Собрали 150 настоящих вопросов из чата поддержки, разметили правильные ответы, и оказалось retrieval@5 всего 0.52. То есть в половине случаев нужного документа даже не было в выдаче. Без этого числа мы полгода думали что всё ок.

Что чинило retrieval: гибридный поиск (bm25 + вектора) вместо чисто векторного, потому что по точным терминам и артикулам вектора мажут. Плюс reranker (bge-reranker) поверх top-20, оставляли top-5 после переранжирования. retrieval@5 поднялся до 0.81.

Галлюцинации и доверие. Добавили обязательные ссылки на источник в каждом ответе и порог: если score ретривера низкий, модель честно говорит не нашёл, обратитесь к коллеге. Лучше отказ чем уверенное враньё.

UX и интеграция. Отдельный портал куда надо ЗАХОДИТЬ это смерть. Люди живут в корпоративном мессенджере. Засунули бота прямо туда, ответы пошли вверх в разы просто от смены точки входа.

Итог: техника была вторична. Убило отсутствие реальных вопросов на старте, грязная база и то что мы не мерили retrieval на настоящих данных. Сейчас перезапускаем, но осадочек на полгода.

oleg_php · Сообщение **oleg_php** » 28 май 2026, 00:45

b1llyn0m писал(а):retrieval@5 всего 0.52. То есть в половине случаев нужного документа даже не было в выдаче

это и есть весь ваш провал в одной цифре. если ретривер не достаёт документ, генератор хоть gpt-5 поставь, он сочинит. все пляшут вокруг LLM а узкое место всегда retrieval. спасибо что честно с числами

lxxyl · Сообщение **lxxyl** » 28 май 2026, 04:18

гибрид bm25+вектора это первое что надо включать а не последнее, чисто dense поиск в корпоративке по артикулам/кодам/аббревиатурам всегда сосёт. проверено на трёх внедрениях

photon1952 · Сообщение **photon1952** » 28 май 2026, 07:08

честный пост, респект что не сделали вид что всё взлетело. большинство таких RAG проектов тихо умирают и об этом никто не пишет, все только success story постят

История как мы полгода пилили RAG который никто не использует

История как мы полгода пилили RAG который никто не использует

Re: История как мы полгода пилили RAG который никто не использует

Re: История как мы полгода пилили RAG который никто не использует

Re: История как мы полгода пилили RAG который никто не использует

Re: История как мы полгода пилили RAG который никто не использует

Re: История как мы полгода пилили RAG который никто не использует

Re: История как мы полгода пилили RAG который никто не использует

Re: История как мы полгода пилили RAG который никто не использует

Re: История как мы полгода пилили RAG который никто не использует

Кто сейчас на конференции