Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

Рейтинг: 51% · 4 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
peekatwo
Сообщения: 38
Зарегистрирован: 12 май 2026, 03:30

Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

Сообщение peekatwo »

Выкатили RAG-ассистента по внутренней базе знаний (вики компании, регламенты, штук 4000 документов), и через месяц вердикт юзеров: половина ответов мимо вопроса или отвечает уверенно неправду. Стек: bge-m3 эмбеддинги, qdrant, поверх gpt-совместимая модель через локальный vllm. retrieval по косинусу top5. Хочу разобрать, где RAG обычно течёт, потому что чувствую что проблема не в LLM а в поиске.
👍 ❤️1 🔥3 😄 🤔
✔ Лучший ответ сформирован автоматически — dmsmith
@автор раз чувствуешь что в поиске, давай мерять а не гадать. собери золотой набор, реально сядь и руками сделай 50-100 вопросов с правильными ответами и пометь какой документ-источник должен находиться. дальше считай retrieval-метрики отдельно от генерации: recall@5 и recall@20, то есть в каком проценте случаев нужный чанк вообще попал в выдачу. если recall@20 низкий, скажем меньше 0.7, то генер…
Перейти к ответу →
Аватара пользователя
py12
Сообщения: 2
Зарегистрирован: 28 май 2026, 06:03

Re: Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

Сообщение py12 »

чутьё верное, в 80% случаев виноват не генератор а retrieval. top5 по голому косинусу без реранкера это вчерашний день. поставь bge-reranker-v2-m3 на переранжировку top30 в top5, качество прыгнет заметно.
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
tonka1
Сообщения: 2
Зарегистрирован: 11 май 2026, 00:55

Re: Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

Сообщение tonka1 »

как чанкал документы? если тупо по 512 токенов с нарезкой посреди предложения, то у тебя половина чанков это обрубки без контекста. регламенты надо резать по структуре, по разделам и пунктам, а не слепым окном.
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
lubliner
Сообщения: 8
Зарегистрирован: 08 июн 2026, 17:03

Re: Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

Сообщение lubliner »

@py12, +1 чанкинг это где обычно всё и умирает
👍 ❤️1 🔥 😄1 🤔1
Аватара пользователя
qwertyn
Сообщения: 4
Зарегистрирован: 28 май 2026, 00:38

Re: Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

Сообщение qwertyn »

peekatwo писал(а):отвечает уверенно неправду
а промпт у тебя заставляет модель отвечать только по контексту? если в системнике нет жёсткого если в документах нет ответа, скажи что не знаешь, она будет добивать из своих весов и врать с уверенным лицом. это не баг retrieval, это ты не запретил отсебятину.
👍2 ❤️ 🔥 😄 🤔
Аватара пользователя
dmsmith
Сообщения: 26
Зарегистрирован: 11 май 2026, 08:37

Re: Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

Сообщение dmsmith »

✔ Лучший ответ — сформирован автоматически
@автор раз чувствуешь что в поиске, давай мерять а не гадать. собери золотой набор, реально сядь и руками сделай 50-100 вопросов с правильными ответами и пометь какой документ-источник должен находиться. дальше считай retrieval-метрики отдельно от генерации: recall@5 и recall@20, то есть в каком проценте случаев нужный чанк вообще попал в выдачу. если recall@20 низкий, скажем меньше 0.7, то генератор хоть трижды умный, ему просто нечего читать, и тогда лечишь поиск. если recall@20 высокий а recall@5 низкий, твоя проблема ранжирование и спасает реранкер. конкретно по стеку: bge-m3 умеет гибридный поиск, не выбрасывай его лексическую часть, объедини плотные вектора с разреженными (спарс), на регламентах с кучей терминов и номеров пунктов лексика ловит то что эмбеддинги мажут. дальше чанкинг: режь по заголовкам с перекрытием токенов 100-150, и обязательно к каждому чанку приклей хлебные крошки, типа Документ X / Раздел Y, тогда модель понимает откуда кусок. top для генерации подними до 8-10 после реранка, контекста хватает. и поставь в ответ ссылку на источник, чтобы юзер сам видел откуда взято, заодно резко падает доля молчаливого вранья, потому что галлюцинацию видно глазами. у нас после реранкера и гибрида recall@5 вырос с 0.58 до 0.86 и жалобы почти кончились.
👍 ❤️ 🔥1 😄 🤔2
Аватара пользователя
jpearce
Сообщения: 47
Зарегистрирован: 11 май 2026, 23:34

Re: Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

Сообщение jpearce »

dmsmith писал(а):приклей хлебные крошки, типа Документ X / Раздел Y
это недооценённый трюк, добавляет копейки к токенам а связность ответов поднимает прилично. ещё дату документа в метаданные клади, иначе RAG достанет старый регламент 2023 года и выдаст как актуальный.
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
nixos69
Сообщения: 35
Зарегистрирован: 12 май 2026, 17:56

Re: Собрали RAG на проде, юзеры жалуются что отвечает мимо, разбор полётов

Сообщение nixos69 »

у вас 4000 документов и вы сразу в прод, а оценку не сделали? отсюда и месяц жалоб. сначала golden set потом релиз, всегда.
👍1 ❤️1 🔥2 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя