RAG галлюцинирует на длинном контексте хотя нужный чанк в выдаче ретривера есть

Рейтинг: 43.9% · 3 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
bashsre
Сообщения: 3
Зарегистрирован: 21 май 2026, 17:41

RAG галлюцинирует на длинном контексте хотя нужный чанк в выдаче ретривера есть

Сообщение bashsre »

Собрал RAG по внутренней вики компании, embeddinggemma + qdrant, top_k=20, и модель регулярно отвечает мимо, хотя в логах вижу что правильный чанк ретривер достал и он реально в промпте. То есть retrieval отработал, а генерация всё равно выдумывает. Контекст набивается на 12-15к токенов. Куда копать?
👍 ❤️2 🔥1 😄 🤔
✔ Лучший ответ сформирован автоматически — juniorredteam
Разложу что у нас сработало, прошли ровно через это на проде клиентской базы знаний. Корень проблемы почти всегда не в LLM, а в том что в контекст летит много нерелевантного. Порядок действий такой. Реранкер обязателен. Ретривер по эмбеддингам ловит тему но не точную релевантность. bge-reranker-v2-m3 или cross-encoder, забираешь из ретривера top_30, реранкер режет до top_4-6. Это дало основной пр…
Перейти к ответу →
Аватара пользователя
highlight
Сообщения: 15
Зарегистрирован: 20 май 2026, 13:19

Re: RAG галлюцинирует на длинном контексте хотя нужный чанк в выдаче ретривера есть

Сообщение highlight »

lost in the middle классика. модель хуже всего видит то что в середине контекста, начало и конец читает, серёдку проскакивает. у тебя нужный чанк скорее всего лёг на 9-12 позицию из 20
👍 ❤️2 🔥1 😄 🤔1
Аватара пользователя
ninja_olga
Сообщения: 8
Зарегистрирован: 14 май 2026, 12:08

Re: RAG галлюцинирует на длинном контексте хотя нужный чанк в выдаче ретривера есть

Сообщение ninja_olga »

highlight писал(а):у тебя нужный чанк скорее всего лёг на 9-12 позицию из 20
проверил, да, ровно так. реранкера нет, qdrant отдаёт по косинусу и порядок там как попало. поставил bge-reranker-v2-m3 поверх, оставил top_5 после ранжирования, релевантный чанк уехал на 1-2 место и галлюцинации просели прилично
👍4 ❤️ 🔥 😄 🤔
Аватара пользователя
qcdeed
Сообщения: 57
Зарегистрирован: 11 май 2026, 20:16

Re: RAG галлюцинирует на длинном контексте хотя нужный чанк в выдаче ретривера есть

Сообщение qcdeed »

top_k=20 при 15к контекста это просто мусор в промпт. ты ретривером тащишь 20 чанков а реально релевантных там 2-3, остальные 17 это шум который модель честно пытается учесть и плывёт. меньше и точнее всегда лучше чем больше
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
juniorredteam
Сообщения: 66
Зарегистрирован: 11 май 2026, 07:16

Re: RAG галлюцинирует на длинном контексте хотя нужный чанк в выдаче ретривера есть

Сообщение juniorredteam »

✔ Лучший ответ — сформирован автоматически
Разложу что у нас сработало, прошли ровно через это на проде клиентской базы знаний.

Корень проблемы почти всегда не в LLM, а в том что в контекст летит много нерелевантного. Порядок действий такой.

Реранкер обязателен. Ретривер по эмбеддингам ловит тему но не точную релевантность. bge-reranker-v2-m3 или cross-encoder, забираешь из ретривера top_30, реранкер режет до top_4-6. Это дало основной прирост.

Переупорядочивание. После реранка лучшие чанки клади в начало И в конец промпта, середину отдавай менее важным. Есть готовый long-context reorder в llamaindex, но можно руками за пять строк.

Цитирование с принуждением. В системнике требуешь чтобы модель перед ответом выписала id чанков на которые опирается, и отвечала только по ним. Если в чанках ответа нет, отвечай не знаю. Это резко срезает выдумки, модель перестаёт фантазировать поверх пустоты.

И померяй faithfulness через ragas или ловлю расхождений, иначе ты чинишь вслепую. У нас после реранка + reorder + принудительных цитат доля галлюцинаций с примерно 30 процентов упала до единиц. top_k=20 без реранка это худшее из решений, ты максимизируешь и шум и длину.
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
dacowbys
Сообщения: 6
Зарегистрирован: 26 май 2026, 04:45

Re: RAG галлюцинирует на длинном контексте хотя нужный чанк в выдаче ретривера есть

Сообщение dacowbys »

juniorredteam писал(а):В системнике требуешь чтобы модель перед ответом выписала id чанков на которые опирается
вот это недооценено сильно. как только заставляешь модель эксплицитно сослаться, она перестаёт додумывать. у нас ещё и проверку повесили постфактум, если в ответе факт которого нет ни в одном процитированном чанке, реджектим и переспрашиваем
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
Austkin
Сообщения: 83
Зарегистрирован: 11 май 2026, 03:40

Re: RAG галлюцинирует на длинном контексте хотя нужный чанк в выдаче ретривера есть

Сообщение Austkin »

@qcdeed, embeddinggemma на русском как себя ведёт? а то у меня multilingual-e5-large и на смеси рус+англ терминов он путается, qdrant тащит вообще не то
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей