RAG галлюцинирует на длинном контексте хотя нужный чанк в выдаче ретривера есть

bashsre · Сообщение **bashsre** » 09 июн 2026, 20:06

Собрал RAG по внутренней вики компании, embeddinggemma + qdrant, top_k=20, и модель регулярно отвечает мимо, хотя в логах вижу что правильный чанк ретривер достал и он реально в промпте. То есть retrieval отработал, а генерация всё равно выдумывает. Контекст набивается на 12-15к токенов. Куда копать?

highlight · Сообщение **highlight** » 09 июн 2026, 22:22

lost in the middle классика. модель хуже всего видит то что в середине контекста, начало и конец читает, серёдку проскакивает. у тебя нужный чанк скорее всего лёг на 9-12 позицию из 20

ninja_olga · Сообщение **ninja_olga** » 10 июн 2026, 00:09

highlight писал(а):у тебя нужный чанк скорее всего лёг на 9-12 позицию из 20

проверил, да, ровно так. реранкера нет, qdrant отдаёт по косинусу и порядок там как попало. поставил bge-reranker-v2-m3 поверх, оставил top_5 после ранжирования, релевантный чанк уехал на 1-2 место и галлюцинации просели прилично

qcdeed · Сообщение **qcdeed** » 10 июн 2026, 03:22

top_k=20 при 15к контекста это просто мусор в промпт. ты ретривером тащишь 20 чанков а реально релевантных там 2-3, остальные 17 это шум который модель честно пытается учесть и плывёт. меньше и точнее всегда лучше чем больше

juniorredteam

Разложу что у нас сработало, прошли ровно через это на проде клиентской базы знаний.

Корень проблемы почти всегда не в LLM, а в том что в контекст летит много нерелевантного. Порядок действий такой.

Реранкер обязателен. Ретривер по эмбеддингам ловит тему но не точную релевантность. bge-reranker-v2-m3 или cross-encoder, забираешь из ретривера top_30, реранкер режет до top_4-6. Это дало основной прирост.

Переупорядочивание. После реранка лучшие чанки клади в начало И в конец промпта, середину отдавай менее важным. Есть готовый long-context reorder в llamaindex, но можно руками за пять строк.

Цитирование с принуждением. В системнике требуешь чтобы модель перед ответом выписала id чанков на которые опирается, и отвечала только по ним. Если в чанках ответа нет, отвечай не знаю. Это резко срезает выдумки, модель перестаёт фантазировать поверх пустоты.

И померяй faithfulness через ragas или ловлю расхождений, иначе ты чинишь вслепую. У нас после реранка + reorder + принудительных цитат доля галлюцинаций с примерно 30 процентов упала до единиц. top_k=20 без реранка это худшее из решений, ты максимизируешь и шум и длину.

dacowbys · Сообщение **dacowbys** » 10 июн 2026, 08:12

juniorredteam писал(а):В системнике требуешь чтобы модель перед ответом выписала id чанков на которые опирается

вот это недооценено сильно. как только заставляешь модель эксплицитно сослаться, она перестаёт додумывать. у нас ещё и проверку повесили постфактум, если в ответе факт которого нет ни в одном процитированном чанке, реджектим и переспрашиваем

Austkin · Сообщение **Austkin** » 10 июн 2026, 11:29

@qcdeed, embeddinggemma на русском как себя ведёт? а то у меня multilingual-e5-large и на смеси рус+англ терминов он путается, qdrant тащит вообще не то

RAG галлюцинирует на длинном контексте хотя нужный чанк в выдаче ретривера есть

RAG галлюцинирует на длинном контексте хотя нужный чанк в выдаче ретривера есть

Re: RAG галлюцинирует на длинном контексте хотя нужный чанк в выдаче ретривера есть

Re: RAG галлюцинирует на длинном контексте хотя нужный чанк в выдаче ретривера есть

Re: RAG галлюцинирует на длинном контексте хотя нужный чанк в выдаче ретривера есть

Re: RAG галлюцинирует на длинном контексте хотя нужный чанк в выдаче ретривера есть

Re: RAG галлюцинирует на длинном контексте хотя нужный чанк в выдаче ретривера есть

Re: RAG галлюцинирует на длинном контексте хотя нужный чанк в выдаче ретривера есть

Кто сейчас на конференции