RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Рейтинг: 43.9% · 3 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
envoylover
Сообщения: 3
Зарегистрирован: 08 июн 2026, 15:58

RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Сообщение envoylover »

Подняли RAG ассистента по внутренней базе регламентов, в демке всё красиво, на проде юзеры жалуются что отвечает уверенно но мимо, цитирует не тот документ или вообще выдумывает пункт которого нет. Стек: эмбеддинги e5-large, qdrant, top_k=5, llm генерит ответ по найденному. Куда копать сначала, в ретривер или в промпт генерации. Чувствую что проблема в поиске но не могу доказать.
👍 ❤️1 🔥1 😄 🤔1
✔ Лучший ответ сформирован автоматически — docker13
Manuelriere писал(а):сам финальный ответ как мерять без ручной разметки llm as judge, но осторожно. берёшь второй моделью промпт типа подтверждается ли ответ приведённым контекстом, faithfulness по сути. ragas это умеет из коробки, faithfulness и answer_relevancy. не идеально, джадж сам шумит, но как онлайн метрика на тренде гораздо лучше чем глазами раз в неделю. калибруй джаджа на своей ручной …
Перейти к ответу →
Аватара пользователя
Bowden
Сообщения: 80
Зарегистрирован: 12 май 2026, 09:21

Re: RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Сообщение Bowden »

сначала измерь ретривер отдельно от генерации. без этого вы гадаете. собери 50-100 реальных вопросов, разметь руками какой чанк правильный, посчитай recall@5 и hit rate. если правильный чанк не попадает в топ5, llm физически не сможет ответить и будет галлюцинировать. лечится это не промптом.
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
archuser
Сообщения: 6
Зарегистрирован: 13 май 2026, 03:18

Re: RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Сообщение archuser »

top_k=5 это мало для регламентов где ответ размазан по разделам, подними до 20 и добавь reranker, bge-reranker-v2-m3 нормально по русски работает, отсортирует эти 20 и оставит 5 реально релевантных
👍1 ❤️ 🔥1 😄 🤔1
Аватара пользователя
kardanger
Сообщения: 17
Зарегистрирован: 21 май 2026, 05:15

Re: RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Сообщение kardanger »

чанкинг как делали? если резали по 512 токенов в лоб по символам, у вас половина пунктов разорвана пополам и эмбеддинг получается ни о чём
👍 ❤️1 🔥 😄 🤔1
Аватара пользователя
debian91
Сообщения: 18
Зарегистрирован: 20 май 2026, 18:40

Re: RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Сообщение debian91 »

kardanger писал(а):резали по 512 токенов в лоб по символам
вот это скорее всего и есть корень. для регламентов фиксированное окно убивает структуру, пункт 4.2.1 уезжает в один чанк, его условие в другой. режьте по структуре документа, по заголовкам и пунктам, с оверлапом. у нас recall подскочил с 0.61 до 0.84 только от смены чанкинга, ничего больше не трогали.
👍3 ❤️ 🔥 😄 🤔1
Аватара пользователя
Omoto
Сообщения: 120
Зарегистрирован: 12 май 2026, 03:05

Re: RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Сообщение Omoto »

e5 без префиксов используете? там же надо query: и passage: добавлять перед текстом, без них модель работает но заметно хуже, многие забивают и потом удивляются
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
Manuelriere
Сообщения: 58
Зарегистрирован: 13 май 2026, 17:46

Re: RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Сообщение Manuelriere »

подниму вопрос, а оценивать качество ответа целиком чем? recall ретривера понятно, а вот сам финальный ответ как мерять без ручной разметки каждый раз
👍1 ❤️ 🔥 😄1 🤔
Аватара пользователя
docker13
Сообщения: 23
Зарегистрирован: 12 май 2026, 16:43

Re: RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Сообщение docker13 »

✔ Лучший ответ — сформирован автоматически
Manuelriere писал(а):сам финальный ответ как мерять без ручной разметки
llm as judge, но осторожно. берёшь второй моделью промпт типа подтверждается ли ответ приведённым контекстом, faithfulness по сути. ragas это умеет из коробки, faithfulness и answer_relevancy. не идеально, джадж сам шумит, но как онлайн метрика на тренде гораздо лучше чем глазами раз в неделю. калибруй джаджа на своей ручной разметке хотя бы раз чтоб понимать его смещение.
👍 ❤️1 🔥1 😄1 🤔
Аватара пользователя
davidwor
Сообщения: 37
Зарегистрирован: 12 май 2026, 01:52

Re: RAG на проде галлюцинирует и тащит не те документы, что чинить в первую очередь

Сообщение davidwor »

по факту порядок такой: 1) почини чанкинг по структуре. 2) добавь префиксы e5. 3) top_k 20 плюс reranker до 5. 4) только потом крути промпт генерации с явной инструкцией отвечай только по контексту, не знаешь так и скажи. промпт последний потому что он не вытащит то чего нет в найденном. и да, добавь в ответ ссылки на источники с номером пункта, юзеры сами увидят когда модель сослалась не туда, это лучший детектор галлюцинаций на early этапе.
👍1 ❤️ 🔥2 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость