RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

GolangHacker

Собрал RAG на 2 млн внутренних документов, и он одновременно тупит по скорости и выдает нерелевантные куски в контекст. Стек pgvector на одной реплике, чанки по 512 токенов, эмбеддинги e5-large, top-k 5. Латенси поиска до 800мс, и половина ответов мимо, модель цитирует не то. Что чинить в первую очередь, retrieval или генерацию, и какую векторку реально брать под такой объем без зарубежных облаков.

trasche10 · Сообщение **trasche10** » 02 июн 2026, 18:12

800мс на pgvector при 2млн это ты ivfflat без нормального lists настроил или вообще seqscan ловишь. покажи explain analyze

Sjobs · Сообщение **Sjobs** » 02 июн 2026, 18:22

проблема у тебя не в скорости в первую очередь, а в качестве retrieval, скорость потом. разбираю по шагам что чинить.

первое. чистый dense на e5 проседает на терминах, артикулах, кодах, аббревиатурах, а во внутренней доке этого вагон. добавь гибрид. bm25 плюс dense и слей через RRF. одно это часто поднимает релевантность процентов на 20-30, и нерелевантные куски уходят.
второе. чанки 512 в лоб это плохо. ты режешь по токенам а не по смыслу, и таблицы с заголовками рвутся. перейди на структурные чанки с overlap 64-128 и тащи в чанк заголовок раздела как префикс. сразу меньше мусора в контексте.
третье. без реранкера ты обречен. ставь bge-reranker поверх top-50 кандидатов, отдаешь в LLM top-5 после переранжирования. вот это самый жирный буст по точности, важнее выбора векторки.
четвертое про инфру. pgvector до 2-5млн с hnsw тянет нормально если индекс настроить (m=16, ef_construction=128, ef_search крутить под latency). если упретесь по объему дальше берите qdrant, он self-hosted, ставится в контур без зарубежных облаков, фильтры по метаданным быстрые. milvus тоже вариант но тяжелее в эксплуатации.
pgvector с hnsw и реранкером скорее всего закроет твои 2млн, не спеши мигрировать.

tor91 · Сообщение **tor91** » 02 июн 2026, 20:58

Sjobs писал(а):без реранкера ты обречен. ставь bge-reranker поверх top-50

подтверждаю, реранкер вытащил наш проект. top-k 5 сразу в llm это вообще не серьезно, бери top-50 кандидатов и режь реранкером. качество ответов другое стало, врать перестал

roselin · Сообщение **roselin** » 03 июн 2026, 00:10

qdrant +1, поставили в свой контур, фильтры по полям летают. от pgvector ушли когда за 5млн перевалили, на pg уже больно было

lunarod · Сообщение **lunarod** » 03 июн 2026, 03:24

e5-large для русского так себе если честно, у тебя часть мимо из-за эмбеддингов а не из-за поиска. глянь bge-m3 или ru-en мультиязычные, на смешанной кириллице с латиницей лучше ложатся

deno9 · Сообщение **deno9** » 03 июн 2026, 04:08

GolangHacker писал(а):покажи explain analyze

да он hnsw поставит и забудет про explain свой, проблема не в плане а в том что top-5 без реранка. вы оба про разное, скорость и релевантность это два отдельных фронта

middleoverflow

ef_search не забудь поднять, на дефолте hnsw быстрый но recall дырявый, половина релевантных просто не находится. крути ef_search 64-128 и меряй recall@10 на размеченном наборе запросов, без замера это гадание

RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

Re: RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

Re: RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

Re: RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

Re: RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

Re: RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

Re: RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

Re: RAG на 2 млн документов тормозит и врет, искал нормальную векторку под СНГ реалии

Кто сейчас на конференции