RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

Рейтинг: 56.6% · 5 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
GolangHacker
Сообщения: 6
Зарегистрирован: 27 май 2026, 20:19

RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

Сообщение GolangHacker »

Собрал RAG на 2 млн внутренних документов, и он одновременно тупит по скорости и выдает нерелевантные куски в контекст. Стек pgvector на одной реплике, чанки по 512 токенов, эмбеддинги e5-large, top-k 5. Латенси поиска до 800мс, и половина ответов мимо, модель цитирует не то. Что чинить в первую очередь, retrieval или генерацию, и какую векторку реально брать под такой объем без зарубежных облаков.
👍2 ❤️2 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — Sjobs
проблема у тебя не в скорости в первую очередь, а в качестве retrieval, скорость потом. разбираю по шагам что чинить. первое. чистый dense на e5 проседает на терминах, артикулах, кодах, аббревиатурах, а во внутренней доке этого вагон. добавь гибрид. bm25 плюс dense и слей через RRF. одно это часто поднимает релевантность процентов на 20-30, и нерелевантные куски уходят. второе. чанки 512 в лоб эт…
Перейти к ответу →
Аватара пользователя
trasche10
Сообщения: 19
Зарегистрирован: 11 май 2026, 18:00

Re: RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

Сообщение trasche10 »

800мс на pgvector при 2млн это ты ivfflat без нормального lists настроил или вообще seqscan ловишь. покажи explain analyze
👍 ❤️ 🔥1 😄1 🤔
Аватара пользователя
Sjobs
Сообщения: 27
Зарегистрирован: 15 май 2026, 07:40

Re: RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

Сообщение Sjobs »

✔ Лучший ответ — сформирован автоматически
проблема у тебя не в скорости в первую очередь, а в качестве retrieval, скорость потом. разбираю по шагам что чинить.

первое. чистый dense на e5 проседает на терминах, артикулах, кодах, аббревиатурах, а во внутренней доке этого вагон. добавь гибрид. bm25 плюс dense и слей через RRF. одно это часто поднимает релевантность процентов на 20-30, и нерелевантные куски уходят.
второе. чанки 512 в лоб это плохо. ты режешь по токенам а не по смыслу, и таблицы с заголовками рвутся. перейди на структурные чанки с overlap 64-128 и тащи в чанк заголовок раздела как префикс. сразу меньше мусора в контексте.
третье. без реранкера ты обречен. ставь bge-reranker поверх top-50 кандидатов, отдаешь в LLM top-5 после переранжирования. вот это самый жирный буст по точности, важнее выбора векторки.
четвертое про инфру. pgvector до 2-5млн с hnsw тянет нормально если индекс настроить (m=16, ef_construction=128, ef_search крутить под latency). если упретесь по объему дальше берите qdrant, он self-hosted, ставится в контур без зарубежных облаков, фильтры по метаданным быстрые. milvus тоже вариант но тяжелее в эксплуатации.
pgvector с hnsw и реранкером скорее всего закроет твои 2млн, не спеши мигрировать.
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
tor91
Сообщения: 33
Зарегистрирован: 13 май 2026, 08:27

Re: RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

Сообщение tor91 »

Sjobs писал(а):без реранкера ты обречен. ставь bge-reranker поверх top-50
подтверждаю, реранкер вытащил наш проект. top-k 5 сразу в llm это вообще не серьезно, бери top-50 кандидатов и режь реранкером. качество ответов другое стало, врать перестал
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
roselin
Сообщения: 2
Зарегистрирован: 08 июн 2026, 07:47

Re: RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

Сообщение roselin »

qdrant +1, поставили в свой контур, фильтры по полям летают. от pgvector ушли когда за 5млн перевалили, на pg уже больно было
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
lunarod
Сообщения: 17
Зарегистрирован: 11 май 2026, 00:25

Re: RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

Сообщение lunarod »

e5-large для русского так себе если честно, у тебя часть мимо из-за эмбеддингов а не из-за поиска. глянь bge-m3 или ru-en мультиязычные, на смешанной кириллице с латиницей лучше ложатся
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
deno9
Сообщения: 17
Зарегистрирован: 22 май 2026, 11:52

Re: RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

Сообщение deno9 »

GolangHacker писал(а):покажи explain analyze
да он hnsw поставит и забудет про explain свой, проблема не в плане а в том что top-5 без реранка. вы оба про разное, скорость и релевантность это два отдельных фронта
👍 ❤️1 🔥 😄 🤔1
Аватара пользователя
middleoverflow
Сообщения: 8
Зарегистрирован: 11 май 2026, 15:19

Re: RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

Сообщение middleoverflow »

ef_search не забудь поднять, на дефолте hnsw быстрый но recall дырявый, половина релевантных просто не находится. крути ef_search 64-128 и меряй recall@10 на размеченном наборе запросов, без замера это гадание
👍3 ❤️1 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость