RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

envoylover · Сообщение **envoylover** » 28 май 2026, 23:25

Подняли RAG ассистента по внутренней базе регламентов, в демке всё красиво, на проде юзеры жалуются что отвечает уверенно но мимо, цитирует не тот документ или вообще выдумывает пункт которого нет. Стек: эмбеддинги e5-large, qdrant, top_k=5, llm генерит ответ по найденному. Куда копать сначала, в ретривер или в промпт генерации. Чувствую что проблема в поиске но не могу доказать.

Bowden · Сообщение **Bowden** » 29 май 2026, 00:56

сначала измерь ретривер отдельно от генерации. без этого вы гадаете. собери 50-100 реальных вопросов, разметь руками какой чанк правильный, посчитай recall@5 и hit rate. если правильный чанк не попадает в топ5, llm физически не сможет ответить и будет галлюцинировать. лечится это не промптом.

archuser · Сообщение **archuser** » 29 май 2026, 02:08

top_k=5 это мало для регламентов где ответ размазан по разделам, подними до 20 и добавь reranker, bge-reranker-v2-m3 нормально по русски работает, отсортирует эти 20 и оставит 5 реально релевантных

kardanger · Сообщение **kardanger** » 29 май 2026, 04:33

чанкинг как делали? если резали по 512 токенов в лоб по символам, у вас половина пунктов разорвана пополам и эмбеддинг получается ни о чём

debian91 · Сообщение **debian91** » 29 май 2026, 08:46

kardanger писал(а):резали по 512 токенов в лоб по символам

вот это скорее всего и есть корень. для регламентов фиксированное окно убивает структуру, пункт 4.2.1 уезжает в один чанк, его условие в другой. режьте по структуре документа, по заголовкам и пунктам, с оверлапом. у нас recall подскочил с 0.61 до 0.84 только от смены чанкинга, ничего больше не трогали.

Omoto · Сообщение **Omoto** » 29 май 2026, 12:57

e5 без префиксов используете? там же надо query: и passage: добавлять перед текстом, без них модель работает но заметно хуже, многие забивают и потом удивляются

Manuelriere · Сообщение **Manuelriere** » 29 май 2026, 16:30

подниму вопрос, а оценивать качество ответа целиком чем? recall ретривера понятно, а вот сам финальный ответ как мерять без ручной разметки каждый раз

docker13 · Сообщение **docker13** » 29 май 2026, 19:38

Manuelriere писал(а):сам финальный ответ как мерять без ручной разметки

llm as judge, но осторожно. берёшь второй моделью промпт типа подтверждается ли ответ приведённым контекстом, faithfulness по сути. ragas это умеет из коробки, faithfulness и answer_relevancy. не идеально, джадж сам шумит, но как онлайн метрика на тренде гораздо лучше чем глазами раз в неделю. калибруй джаджа на своей ручной разметке хотя бы раз чтоб понимать его смещение.

davidwor · Сообщение **davidwor** » 29 май 2026, 23:59

по факту порядок такой: 1) почини чанкинг по структуре. 2) добавь префиксы e5. 3) top_k 20 плюс reranker до 5. 4) только потом крути промпт генерации с явной инструкцией отвечай только по контексту, не знаешь так и скажи. промпт последний потому что он не вытащит то чего нет в найденном. и да, добавь в ответ ссылки на источники с номером пункта, юзеры сами увидят когда модель сослалась не туда, это лучший детектор галлюцинаций на early этапе.

RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Re: RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Re: RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Re: RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Re: RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Re: RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Re: RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Re: RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Re: RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Кто сейчас на конференции