RAG на проде выдаёт мусор, retrieval тащит не те чанки
Рейтинг: 52.3% · 11 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
RAG на проде выдаёт мусор, retrieval тащит не те чанки
RAG собрали, демо красивое, а на реальной базе документов retrieval тащит вообще не те куски и модель уверенно врёт. База примерно 12к pdf, внутренняя документация и регламенты на русском. Эмбеддинги через e5-large, храним в qdrant, берём топ-5 по косинусу. На прямых вопросах где ответ дословно в тексте ещё ок, но чуть перефразируешь или вопрос по смыслу из двух разделов, и retrieval приносит мусор. Это лечится или RAG в принципе так себе работает?
✔ Лучший ответ сформирован автоматически — jpmore
spark_main писал(а):у вас 12к pdf это наверное помойка из сканов и таблиц это кстати чаще всего и есть настоящая причина, а не модель эмбеддингов. но добавлю по делу как чинили похожее. порядок такой. сначала нормальный парсинг, сканы прогнали через ocr, таблицы вытащили отдельно и положили рядом с текстовым описанием, иначе таблица в эмбеддинге это шум. потом чанкинг по смыслу, у регламентов рез…
Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки
чанкинг как делали? если тупо по 512 токенов с нахлёстом, то у тебя пол-смысла режется по границам. на регламентах надо резать по структуре, по пунктам и подпунктам, чтобы чанк был самодостаточным. фикс по длине на русских регламентах это боль.
Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки
e5-large без префикса query: и passage: ? народ постоянно забывает, а эта модель без них работает заметно хуже, она на них обучена. проверь что при индексации пассажи с passage:, а запрос с query:. если нет, то у тебя половина качества в трубу.
Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки
топ-5 без реранкера это корень зла. dense ретривер хорошо тащит грубо релевантное в топ-30, но порядок внутри кривой. поставь bge-reranker-v2-m3 поверх, бери топ-30 кандидатов косинусом, реранкером отбирай 5 лучших. у меня на русской документации это дало самый большой буст из всего, точность ответа подскочила ощутимо. реранкер кросс-энкодер реально читает пару вопрос-чанк, а не считает близость двух отдельных векторов.peopelle писал(а):берём топ-5 по косинусу
- spark_main
- Сообщения: 65
- Зарегистрирован: 12 май 2026, 07:40
Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки
@klapproth, проблема не в RAG а в том что у вас 12к pdf это наверное помойка из сканов и таблиц. вы текст из pdf чем извлекали? если pdfminer на сканах то там пусто или каша, и эмбеддить нечего. сначала проверьте качество извлечённого текста, а потом уже на retrieval гоните.
Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки
✔ Лучший ответ — сформирован автоматически
это кстати чаще всего и есть настоящая причина, а не модель эмбеддингов. но добавлю по делу как чинили похожее. порядок такой. сначала нормальный парсинг, сканы прогнали через ocr, таблицы вытащили отдельно и положили рядом с текстовым описанием, иначе таблица в эмбеддинге это шум. потом чанкинг по смыслу, у регламентов резали по пунктам с сохранением заголовка раздела в начало каждого чанка, чтобы чанк нёс контекст откуда он. к каждому чанку приклеили короткое саммари и ключевые термины, эмбеддили вместе. дальше гибрид dense плюс bm25 через rrf, сверху bge-reranker-v2-m3, на вход модели топ-5 после реранка. и обязательно метрика, собрали 150 реальных вопросов с разметкой какой чанк правильный, и меряли recall@k и hit rate, без этого вы вслепую крутите. после всего этого hit@5 вырос с примерно 0.55 до 0.9. модель эмбеддингов так и осталась e5, менять не пришлось. так что RAG работает, просто это не воткни и поехали, это пайплайн который надо настраивать и мерить на своих данных.spark_main писал(а):у вас 12к pdf это наверное помойка из сканов и таблиц
Поделиться темой:
✈ Telegram
VK
- Похожие темы
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей