RAG на проде выдаёт мусор, retrieval тащит не те чанки

peopelle · Сообщение **peopelle** » 12 май 2026, 15:32

RAG собрали, демо красивое, а на реальной базе документов retrieval тащит вообще не те куски и модель уверенно врёт. База примерно 12к pdf, внутренняя документация и регламенты на русском. Эмбеддинги через e5-large, храним в qdrant, берём топ-5 по косинусу. На прямых вопросах где ответ дословно в тексте ещё ок, но чуть перефразируешь или вопрос по смыслу из двух разделов, и retrieval приносит мусор. Это лечится или RAG в принципе так себе работает?

taichi · Сообщение **taichi** » 12 май 2026, 18:48

чанкинг как делали? если тупо по 512 токенов с нахлёстом, то у тебя пол-смысла режется по границам. на регламентах надо резать по структуре, по пунктам и подпунктам, чтобы чанк был самодостаточным. фикс по длине на русских регламентах это боль.

qawsqaws · Сообщение **qawsqaws** » 12 май 2026, 18:57

e5-large без префикса query: и passage: ? народ постоянно забывает, а эта модель без них работает заметно хуже, она на них обучена. проверь что при индексации пассажи с passage:, а запрос с query:. если нет, то у тебя половина качества в трубу.

klapproth · Сообщение **klapproth** » 12 май 2026, 21:57

+1 на гибридный поиск. чистый dense на русских доках с кучей терминов и номеров регламентов промахивается, bm25 ловит точные совпадения номеров и аббревиатур. qdrant умеет sparse векторы, добавь и слей через rrf.

svelte88 · Сообщение **svelte88** » 13 май 2026, 01:17

peopelle писал(а):берём топ-5 по косинусу

топ-5 без реранкера это корень зла. dense ретривер хорошо тащит грубо релевантное в топ-30, но порядок внутри кривой. поставь bge-reranker-v2-m3 поверх, бери топ-30 кандидатов косинусом, реранкером отбирай 5 лучших. у меня на русской документации это дало самый большой буст из всего, точность ответа подскочила ощутимо. реранкер кросс-энкодер реально читает пару вопрос-чанк, а не считает близость двух отдельных векторов.

spark_main · Сообщение **spark_main** » 13 май 2026, 03:06

@klapproth, проблема не в RAG а в том что у вас 12к pdf это наверное помойка из сканов и таблиц. вы текст из pdf чем извлекали? если pdfminer на сканах то там пусто или каша, и эмбеддить нечего. сначала проверьте качество извлечённого текста, а потом уже на retrieval гоните.

jpmore · Сообщение **jpmore** » 13 май 2026, 03:36

spark_main писал(а):у вас 12к pdf это наверное помойка из сканов и таблиц

это кстати чаще всего и есть настоящая причина, а не модель эмбеддингов. но добавлю по делу как чинили похожее. порядок такой. сначала нормальный парсинг, сканы прогнали через ocr, таблицы вытащили отдельно и положили рядом с текстовым описанием, иначе таблица в эмбеддинге это шум. потом чанкинг по смыслу, у регламентов резали по пунктам с сохранением заголовка раздела в начало каждого чанка, чтобы чанк нёс контекст откуда он. к каждому чанку приклеили короткое саммари и ключевые термины, эмбеддили вместе. дальше гибрид dense плюс bm25 через rrf, сверху bge-reranker-v2-m3, на вход модели топ-5 после реранка. и обязательно метрика, собрали 150 реальных вопросов с разметкой какой чанк правильный, и меряли recall@k и hit rate, без этого вы вслепую крутите. после всего этого hit@5 вырос с примерно 0.55 до 0.9. модель эмбеддингов так и осталась e5, менять не пришлось. так что RAG работает, просто это не воткни и поехали, это пайплайн который надо настраивать и мерить на своих данных.

torch22 · Сообщение **torch22** » 13 май 2026, 07:24

метрики это база, плюсую. без recall@k вы спорите о вкусе чанков вслепую

b1llyn0m · Сообщение **b1llyn0m** » 13 май 2026, 11:12

саммари к каждому чанку через llm это ж 12к вызовов модели на индексации, по деньгам не больно вышло? или локальной гоняли

RAG на проде выдаёт мусор, retrieval тащит не те чанки

RAG на проде выдаёт мусор, retrieval тащит не те чанки

Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки

Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки

Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки

Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки

Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки

Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки

Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки

Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки

Кто сейчас на конференции