Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов
Рейтинг: 51% · 4 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов
Выкатили RAG-ассистента по внутренней базе знаний (вики компании, регламенты, штук 4000 документов), и через месяц вердикт юзеров: половина ответов мимо вопроса или отвечает уверенно неправду. Стек: bge-m3 эмбеддинги, qdrant, поверх gpt-совместимая модель через локальный vllm. retrieval по косинусу top5. Хочу разобрать, где RAG обычно течёт, потому что чувствую что проблема не в LLM а в поиске.
✔ Лучший ответ сформирован автоматически — dmsmith
@автор раз чувствуешь что в поиске, давай мерять а не гадать. собери золотой набор, реально сядь и руками сделай 50-100 вопросов с правильными ответами и пометь какой документ-источник должен находиться. дальше считай retrieval-метрики отдельно от генерации: recall@5 и recall@20, то есть в каком проценте случаев нужный чанк вообще попал в выдачу. если recall@20 низкий, скажем меньше 0.7, то генер…
Re: Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов
а промпт у тебя заставляет модель отвечать только по контексту? если в системнике нет жёсткого если в документах нет ответа, скажи что не знаешь, она будет добивать из своих весов и врать с уверенным лицом. это не баг retrieval, это ты не запретил отсебятину.peekatwo писал(а):отвечает уверенно неправду
Re: Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов
✔ Лучший ответ — сформирован автоматически
@автор раз чувствуешь что в поиске, давай мерять а не гадать. собери золотой набор, реально сядь и руками сделай 50-100 вопросов с правильными ответами и пометь какой документ-источник должен находиться. дальше считай retrieval-метрики отдельно от генерации: recall@5 и recall@20, то есть в каком проценте случаев нужный чанк вообще попал в выдачу. если recall@20 низкий, скажем меньше 0.7, то генератор хоть трижды умный, ему просто нечего читать, и тогда лечишь поиск. если recall@20 высокий а recall@5 низкий, твоя проблема ранжирование и спасает реранкер. конкретно по стеку: bge-m3 умеет гибридный поиск, не выбрасывай его лексическую часть, объедини плотные вектора с разреженными (спарс), на регламентах с кучей терминов и номеров пунктов лексика ловит то что эмбеддинги мажут. дальше чанкинг: режь по заголовкам с перекрытием токенов 100-150, и обязательно к каждому чанку приклей хлебные крошки, типа Документ X / Раздел Y, тогда модель понимает откуда кусок. top для генерации подними до 8-10 после реранка, контекста хватает. и поставь в ответ ссылку на источник, чтобы юзер сам видел откуда взято, заодно резко падает доля молчаливого вранья, потому что галлюцинацию видно глазами. у нас после реранкера и гибрида recall@5 вырос с 0.58 до 0.86 и жалобы почти кончились.
Re: Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов
это недооценённый трюк, добавляет копейки к токенам а связность ответов поднимает прилично. ещё дату документа в метаданные клади, иначе RAG достанет старый регламент 2023 года и выдаст как актуальный.dmsmith писал(а):приклей хлебные крошки, типа Документ X / Раздел Y
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Переписали дневной ETL с Pandas на Polars — выигрыш 6x по времени, но грабли тоже собрали
5 ответов · 7 просмотров
-
-
- RAG выдаёт правильные чанки но модель отвечает мимо, что не так с retrieval
7 ответов · 4 просмотров
-
- Провожу собесы и каждый второй кандидат отвечает с суфлером. Как вы это ловите
8 ответов · 2 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя