RAG выдаёт правильные чанки но модель отвечает мимо, что не так с retrieval

Рейтинг: 52.9% · 8 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
navspy
Сообщения: 60
Зарегистрирован: 12 май 2026, 02:48

RAG выдаёт правильные чанки но модель отвечает мимо, что не так с retrieval

Сообщение navspy »

RAG достаёт нужные документы (вижу по логам что правильный чанк в топе), но финальный ответ всё равно мимо или галлюцинация. Стек: e5-large эмбеддинги, Qdrant, top-k 5, генератор Qwen 32B. Retrieval вроде работает, а ответы плохие. Получается проблема не в поиске а в генерации? как локализовать где ломается.
👍2 ❤️1 🔥 😄1 🤔
✔ Лучший ответ сформирован автоматически — andrei123
вот прям по шагам как я такое чиню, помогает в 90% случаев. Первое, добавь реранкер между ретривером и генератором, bge-reranker-v2-m3 хватает. Достаёшь top-20 из Qdrant, реранкер пересортировывает, в промпт кладёшь top-3. Сразу отрезается похожий по лексике но нерелевантный мусор, который bi-encoder типа e5 пропускает. Второе, проверь чанкинг. Если режешь по 512 токенов в тупую по длине, ответ н…
Перейти к ответу →
Аватара пользователя
Sdgator
Сообщения: 59
Зарегистрирован: 12 май 2026, 01:12

Re: RAG выдаёт правильные чанки но модель отвечает мимо, что не так с retrieval

Сообщение Sdgator »

@navspy, раздели метрики. context recall (нужный чанк в выдаче) и answer faithfulness (ответ опирается на контекст) это разные вещи. У тебя первое ок, второе нет
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
qcdeed
Сообщения: 57
Зарегистрирован: 11 май 2026, 20:16

Re: RAG выдаёт правильные чанки но модель отвечает мимо, что не так с retrieval

Сообщение qcdeed »

top-k 5 и e5 это ты query префикс query: ставишь? без него e5 деградирует, многие на этом горят
👍1 ❤️2 🔥 😄 🤔
Аватара пользователя
infern
Сообщения: 87
Зарегистрирован: 11 май 2026, 10:23

Re: RAG выдаёт правильные чанки но модель отвечает мимо, что не так с retrieval

Сообщение infern »

navspy писал(а):вижу по логам что правильный чанк в топе
в топе это в каком месте топа? если нужный чанк на позиции 4-5 из 5, а первые три это мусор похожий по словам, то модель тонет в нерелевантном контексте и тащит ответ из мусора. Lost in the middle никто не отменял. Попробуй сначала просто посмотреть глазами что реально уходит в промпт целиком, а не верь что раз чанк присутствует то всё ок. Очень часто оказывается что в промпте 5 чанков и 4 из них шум, который уводит генератор.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
andrei123
Сообщения: 2
Зарегистрирован: 14 май 2026, 11:27

Re: RAG выдаёт правильные чанки но модель отвечает мимо, что не так с retrieval

Сообщение andrei123 »

✔ Лучший ответ — сформирован автоматически
вот прям по шагам как я такое чиню, помогает в 90% случаев. Первое, добавь реранкер между ретривером и генератором, bge-reranker-v2-m3 хватает. Достаёшь top-20 из Qdrant, реранкер пересортировывает, в промпт кладёшь top-3. Сразу отрезается похожий по лексике но нерелевантный мусор, который bi-encoder типа e5 пропускает. Второе, проверь чанкинг. Если режешь по 512 токенов в тупую по длине, ответ на вопрос может оказаться разрезанным между двумя чанками и ни один не самодостаточен. Режь по смыслу, по заголовкам или хотя бы с overlap 100-150 токенов. Третье, в системном промпте жёстко: отвечай только на основе контекста ниже, если ответа в контексте нет скажи не знаю. Без этой инструкции Qwen радостно дополняет из своих весов и ты получаешь галлюцинацию поверх правильного чанка. Четвёртое, померяй раздельно: собери 50 вопросов, для каждого руками отметь нужный чанк, посчитай recall@5 ретривера отдельно и faithfulness ответа отдельно через llm-as-judge. Пока не разделишь эти две цифры ты гадаешь вслепую. У меня после реранкера и нормального чанкинга faithfulness с 0.6 до 0.88 поднялся, ретривер при этом вообще не трогал.
👍1 ❤️1 🔥 😄1 🤔
Аватара пользователя
deepsamurai
Сообщения: 15
Зарегистрирован: 11 май 2026, 09:56

Re: RAG выдаёт правильные чанки но модель отвечает мимо, что не так с retrieval

Сообщение deepsamurai »

@автор ещё банальщина: какой context length у тебя реально в проде стоит на генераторе? Если урезал до 4к ради скорости а 5 чанков по 512 плюс промпт не влезают, то часть контекста молча обрезается и нужный чанк до модели не доходит хоть он и в логах ретривера
👍2 ❤️1 🔥1 😄 🤔
Аватара пользователя
cudapilot
Сообщения: 5
Зарегистрирован: 23 май 2026, 00:52

Re: RAG выдаёт правильные чанки но модель отвечает мимо, что не так с retrieval

Сообщение cudapilot »

andrei123 писал(а):добавь реранкер между ретривером и генератором, bge-reranker-v2-m3 хватает
реранкер не серебряная пуля. Если у тебя сам e5 на русском плохо матчит (а e5-large на специфичной доменной лексике реально слабоват), то реранкеру нечего пересортировывать, нужный чанк уже не попал в top-20. Я бы сначала проверил recall@20 голого ретривера, и если он низкий, менял бы эмбеддер на e5-mistral или bge-m3, а уже потом городил реранкер. Лечить генерацию когда болит ретривер бессмысленно
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
lfmatt
Сообщения: 19
Зарегистрирован: 14 май 2026, 05:42

Re: RAG выдаёт правильные чанки но модель отвечает мимо, что не так с retrieval

Сообщение lfmatt »

галлюцинация при правильном чанке почти всегда промпт.温度 какая? если temperature 0.7+ на фактологии то сам напросился, ставь 0.1
👍2 ❤️1 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость