RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии
Рейтинг: 56.6% · 5 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- GolangHacker
- Сообщения: 6
- Зарегистрирован: 27 май 2026, 20:19
RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии
Собрал RAG на 2 млн внутренних документов, и он одновременно тупит по скорости и выдает нерелевантные куски в контекст. Стек pgvector на одной реплике, чанки по 512 токенов, эмбеддинги e5-large, top-k 5. Латенси поиска до 800мс, и половина ответов мимо, модель цитирует не то. Что чинить в первую очередь, retrieval или генерацию, и какую векторку реально брать под такой объем без зарубежных облаков.
✔ Лучший ответ сформирован автоматически — Sjobs
проблема у тебя не в скорости в первую очередь, а в качестве retrieval, скорость потом. разбираю по шагам что чинить. первое. чистый dense на e5 проседает на терминах, артикулах, кодах, аббревиатурах, а во внутренней доке этого вагон. добавь гибрид. bm25 плюс dense и слей через RRF. одно это часто поднимает релевантность процентов на 20-30, и нерелевантные куски уходят. второе. чанки 512 в лоб эт…
Re: RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии
✔ Лучший ответ — сформирован автоматически
проблема у тебя не в скорости в первую очередь, а в качестве retrieval, скорость потом. разбираю по шагам что чинить.
первое. чистый dense на e5 проседает на терминах, артикулах, кодах, аббревиатурах, а во внутренней доке этого вагон. добавь гибрид. bm25 плюс dense и слей через RRF. одно это часто поднимает релевантность процентов на 20-30, и нерелевантные куски уходят.
второе. чанки 512 в лоб это плохо. ты режешь по токенам а не по смыслу, и таблицы с заголовками рвутся. перейди на структурные чанки с overlap 64-128 и тащи в чанк заголовок раздела как префикс. сразу меньше мусора в контексте.
третье. без реранкера ты обречен. ставь bge-reranker поверх top-50 кандидатов, отдаешь в LLM top-5 после переранжирования. вот это самый жирный буст по точности, важнее выбора векторки.
четвертое про инфру. pgvector до 2-5млн с hnsw тянет нормально если индекс настроить (m=16, ef_construction=128, ef_search крутить под latency). если упретесь по объему дальше берите qdrant, он self-hosted, ставится в контур без зарубежных облаков, фильтры по метаданным быстрые. milvus тоже вариант но тяжелее в эксплуатации.
pgvector с hnsw и реранкером скорее всего закроет твои 2млн, не спеши мигрировать.
первое. чистый dense на e5 проседает на терминах, артикулах, кодах, аббревиатурах, а во внутренней доке этого вагон. добавь гибрид. bm25 плюс dense и слей через RRF. одно это часто поднимает релевантность процентов на 20-30, и нерелевантные куски уходят.
второе. чанки 512 в лоб это плохо. ты режешь по токенам а не по смыслу, и таблицы с заголовками рвутся. перейди на структурные чанки с overlap 64-128 и тащи в чанк заголовок раздела как префикс. сразу меньше мусора в контексте.
третье. без реранкера ты обречен. ставь bge-reranker поверх top-50 кандидатов, отдаешь в LLM top-5 после переранжирования. вот это самый жирный буст по точности, важнее выбора векторки.
четвертое про инфру. pgvector до 2-5млн с hnsw тянет нормально если индекс настроить (m=16, ef_construction=128, ef_search крутить под latency). если упретесь по объему дальше берите qdrant, он self-hosted, ставится в контур без зарубежных облаков, фильтры по метаданным быстрые. milvus тоже вариант но тяжелее в эксплуатации.
pgvector с hnsw и реранкером скорее всего закроет твои 2млн, не спеши мигрировать.
Re: RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии
подтверждаю, реранкер вытащил наш проект. top-k 5 сразу в llm это вообще не серьезно, бери top-50 кандидатов и режь реранкером. качество ответов другое стало, врать пересталSjobs писал(а):без реранкера ты обречен. ставь bge-reranker поверх top-50
Re: RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии
да он hnsw поставит и забудет про explain свой, проблема не в плане а в том что top-5 без реранка. вы оба про разное, скорость и релевантность это два отдельных фронтаGolangHacker писал(а):покажи explain analyze
- middleoverflow
- Сообщения: 8
- Зарегистрирован: 11 май 2026, 15:19
Re: RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии
ef_search не забудь поднять, на дефолте hnsw быстрый но recall дырявый, половина релевантных просто не находится. крути ef_search 64-128 и меряй recall@10 на размеченном наборе запросов, без замера это гадание
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Запрос с JOIN тормозит на 5 секунд, EXPLAIN внутри — помогите разобраться
10 ответов · 645 просмотров
-
-
-
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость