RAG на проде выдаёт мусор, retrieval тащит не те чанки

Рейтинг: 52.3% · 11 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
peopelle
Сообщения: 19
Зарегистрирован: 11 май 2026, 20:10

RAG на проде выдаёт мусор, retrieval тащит не те чанки

Сообщение peopelle »

RAG собрали, демо красивое, а на реальной базе документов retrieval тащит вообще не те куски и модель уверенно врёт. База примерно 12к pdf, внутренняя документация и регламенты на русском. Эмбеддинги через e5-large, храним в qdrant, берём топ-5 по косинусу. На прямых вопросах где ответ дословно в тексте ещё ок, но чуть перефразируешь или вопрос по смыслу из двух разделов, и retrieval приносит мусор. Это лечится или RAG в принципе так себе работает?
👍 ❤️1 🔥2 😄 🤔
✔ Лучший ответ сформирован автоматически — jpmore
spark_main писал(а):у вас 12к pdf это наверное помойка из сканов и таблиц это кстати чаще всего и есть настоящая причина, а не модель эмбеддингов. но добавлю по делу как чинили похожее. порядок такой. сначала нормальный парсинг, сканы прогнали через ocr, таблицы вытащили отдельно и положили рядом с текстовым описанием, иначе таблица в эмбеддинге это шум. потом чанкинг по смыслу, у регламентов рез…
Перейти к ответу →
Аватара пользователя
taichi
Сообщения: 17
Зарегистрирован: 12 май 2026, 14:22

Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки

Сообщение taichi »

чанкинг как делали? если тупо по 512 токенов с нахлёстом, то у тебя пол-смысла режется по границам. на регламентах надо резать по структуре, по пунктам и подпунктам, чтобы чанк был самодостаточным. фикс по длине на русских регламентах это боль.
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
qawsqaws
Сообщения: 11
Зарегистрирован: 11 май 2026, 17:11

Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки

Сообщение qawsqaws »

e5-large без префикса query: и passage: ? народ постоянно забывает, а эта модель без них работает заметно хуже, она на них обучена. проверь что при индексации пассажи с passage:, а запрос с query:. если нет, то у тебя половина качества в трубу.
👍 ❤️1 🔥2 😄 🤔
Аватара пользователя
klapproth
Сообщения: 6
Зарегистрирован: 13 май 2026, 19:30

Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки

Сообщение klapproth »

+1 на гибридный поиск. чистый dense на русских доках с кучей терминов и номеров регламентов промахивается, bm25 ловит точные совпадения номеров и аббревиатур. qdrant умеет sparse векторы, добавь и слей через rrf.
👍1 ❤️ 🔥1 😄 🤔
Аватара пользователя
svelte88
Сообщения: 63
Зарегистрирован: 12 май 2026, 11:49

Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки

Сообщение svelte88 »

peopelle писал(а):берём топ-5 по косинусу
топ-5 без реранкера это корень зла. dense ретривер хорошо тащит грубо релевантное в топ-30, но порядок внутри кривой. поставь bge-reranker-v2-m3 поверх, бери топ-30 кандидатов косинусом, реранкером отбирай 5 лучших. у меня на русской документации это дало самый большой буст из всего, точность ответа подскочила ощутимо. реранкер кросс-энкодер реально читает пару вопрос-чанк, а не считает близость двух отдельных векторов.
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
spark_main
Сообщения: 65
Зарегистрирован: 12 май 2026, 07:40

Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки

Сообщение spark_main »

@klapproth, проблема не в RAG а в том что у вас 12к pdf это наверное помойка из сканов и таблиц. вы текст из pdf чем извлекали? если pdfminer на сканах то там пусто или каша, и эмбеддить нечего. сначала проверьте качество извлечённого текста, а потом уже на retrieval гоните.
👍2 ❤️ 🔥1 😄 🤔
Аватара пользователя
jpmore
Сообщения: 13
Зарегистрирован: 12 май 2026, 23:46

Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки

Сообщение jpmore »

✔ Лучший ответ — сформирован автоматически
spark_main писал(а):у вас 12к pdf это наверное помойка из сканов и таблиц
это кстати чаще всего и есть настоящая причина, а не модель эмбеддингов. но добавлю по делу как чинили похожее. порядок такой. сначала нормальный парсинг, сканы прогнали через ocr, таблицы вытащили отдельно и положили рядом с текстовым описанием, иначе таблица в эмбеддинге это шум. потом чанкинг по смыслу, у регламентов резали по пунктам с сохранением заголовка раздела в начало каждого чанка, чтобы чанк нёс контекст откуда он. к каждому чанку приклеили короткое саммари и ключевые термины, эмбеддили вместе. дальше гибрид dense плюс bm25 через rrf, сверху bge-reranker-v2-m3, на вход модели топ-5 после реранка. и обязательно метрика, собрали 150 реальных вопросов с разметкой какой чанк правильный, и меряли recall@k и hit rate, без этого вы вслепую крутите. после всего этого hit@5 вырос с примерно 0.55 до 0.9. модель эмбеддингов так и осталась e5, менять не пришлось. так что RAG работает, просто это не воткни и поехали, это пайплайн который надо настраивать и мерить на своих данных.
👍 ❤️ 🔥2 😄 🤔
Аватара пользователя
torch22
Сообщения: 43
Зарегистрирован: 11 май 2026, 20:50

Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки

Сообщение torch22 »

метрики это база, плюсую. без recall@k вы спорите о вкусе чанков вслепую
👍 ❤️1 🔥2 😄 🤔1
Аватара пользователя
b1llyn0m
Сообщения: 70
Зарегистрирован: 11 май 2026, 07:32

Re: RAG на проде выдаёт мусор, retrieval тащит не те чанки

Сообщение b1llyn0m »

саммари к каждому чанку через llm это ж 12к вызовов модели на индексации, по деньгам не больно вышло? или локальной гоняли
👍1 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость