Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

peekatwo · Сообщение **peekatwo** » 17 май 2026, 23:14

Выкатили RAG-ассистента по внутренней базе знаний (вики компании, регламенты, штук 4000 документов), и через месяц вердикт юзеров: половина ответов мимо вопроса или отвечает уверенно неправду. Стек: bge-m3 эмбеддинги, qdrant, поверх gpt-совместимая модель через локальный vllm. retrieval по косинусу top5. Хочу разобрать, где RAG обычно течёт, потому что чувствую что проблема не в LLM а в поиске.

py12 · Сообщение **py12** » 18 май 2026, 00:02

чутьё верное, в 80% случаев виноват не генератор а retrieval. top5 по голому косинусу без реранкера это вчерашний день. поставь bge-reranker-v2-m3 на переранжировку top30 в top5, качество прыгнет заметно.

tonka1 · Сообщение **tonka1** » 18 май 2026, 03:18

как чанкал документы? если тупо по 512 токенов с нарезкой посреди предложения, то у тебя половина чанков это обрубки без контекста. регламенты надо резать по структуре, по разделам и пунктам, а не слепым окном.

lubliner · Сообщение **lubliner** » 18 май 2026, 04:46

@py12, +1 чанкинг это где обычно всё и умирает

qwertyn · Сообщение **qwertyn** » 18 май 2026, 07:14

peekatwo писал(а):отвечает уверенно неправду

а промпт у тебя заставляет модель отвечать только по контексту? если в системнике нет жёсткого если в документах нет ответа, скажи что не знаешь, она будет добивать из своих весов и врать с уверенным лицом. это не баг retrieval, это ты не запретил отсебятину.

dmsmith · Сообщение **dmsmith** » 18 май 2026, 11:48

@автор раз чувствуешь что в поиске, давай мерять а не гадать. собери золотой набор, реально сядь и руками сделай 50-100 вопросов с правильными ответами и пометь какой документ-источник должен находиться. дальше считай retrieval-метрики отдельно от генерации: recall@5 и recall@20, то есть в каком проценте случаев нужный чанк вообще попал в выдачу. если recall@20 низкий, скажем меньше 0.7, то генератор хоть трижды умный, ему просто нечего читать, и тогда лечишь поиск. если recall@20 высокий а recall@5 низкий, твоя проблема ранжирование и спасает реранкер. конкретно по стеку: bge-m3 умеет гибридный поиск, не выбрасывай его лексическую часть, объедини плотные вектора с разреженными (спарс), на регламентах с кучей терминов и номеров пунктов лексика ловит то что эмбеддинги мажут. дальше чанкинг: режь по заголовкам с перекрытием токенов 100-150, и обязательно к каждому чанку приклей хлебные крошки, типа Документ X / Раздел Y, тогда модель понимает откуда кусок. top для генерации подними до 8-10 после реранка, контекста хватает. и поставь в ответ ссылку на источник, чтобы юзер сам видел откуда взято, заодно резко падает доля молчаливого вранья, потому что галлюцинацию видно глазами. у нас после реранкера и гибрида recall@5 вырос с 0.58 до 0.86 и жалобы почти кончились.

jpearce · Сообщение **jpearce** » 18 май 2026, 15:07

dmsmith писал(а):приклей хлебные крошки, типа Документ X / Раздел Y

это недооценённый трюк, добавляет копейки к токенам а связность ответов поднимает прилично. ещё дату документа в метаданные клади, иначе RAG достанет старый регламент 2023 года и выдаст как актуальный.

nixos69 · Сообщение **nixos69** » 18 май 2026, 17:14

у вас 4000 документов и вы сразу в прод, а оценку не сделали? отсюда и месяц жалоб. сначала golden set потом релиз, всегда.

Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

Re: Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

Re: Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

Re: Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

Re: Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

Re: Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

Re: Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

Re: Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

Кто сейчас на конференции