Нейросетевой поиск (Neural IR)

kirill_ir · Сообщение **kirill_ir** » 26 май 2026, 15:53

Часть IV · ~10 ч · Сложность: (продвинутый) · Пререквизиты: Модуль 1, 6, 9

Обзор модуля

Все предыдущие модели релевантности — булева, векторная tf-idf, BM25 (Модуль 6), обучаемое ранжирование на ручных признаках (Модуль 9) — роднит одно: они оперируют поверхностным совпадением слов. Если запрос «как лечить простуду», а документ написан про «терапию ОРВИ», лексические модели увидят ноль общих значимых терминов и поставят документу почти нулевой текстовый скор, хотя по смыслу это идеальный ответ. Это проблема лексического разрыва (vocabulary mismatch): одно и то же значение выражают разными словами, а одно и то же слово значит разное в разных контекстах («лук» — растение или оружие). Нейросетевой поиск (neural IR) — это семейство методов, которые сопоставляют запрос и документ в пространстве смыслов, а не строк, и тем самым закрывают этот разрыв.

Ключевой объект модуля — эмбеддинг (embedding): плотный вектор фиксированной размерности (например, 768), который нейросеть-энкодер сопоставляет тексту так, что близкие по смыслу тексты получают близкие векторы. Поиск превращается в геометрию: индексируем документы как точки в d-мерном пространстве, запрос — тоже точка, релевантность ≈ близость (косинус или скалярное произведение). На этом стоит вся глава 10.1. Но наивная реализация — «прогнать нейросеть на паре (запрос, документ) для каждого из миллиардов документов» — невозможна по стоимости. Поэтому в сквозном конвейере «обход → индекс → факторы → ранжирование → выдача → постобработка → измерение» нейропоиск распадается надвое. Документные эмбеддинги вычисляются офлайн, при индексации, и материализуются прямо в индекс (глава 10.2, прямая связь с Модулем 4): это самая дорогая часть, и она делается один раз на документ. Близость запроса к документам считается в рантайме (глава 10.3, связь с каскадом ранжирования Модуля 12): запрос пришёл — мы кодируем только его и ищем ближайшие векторы. Это и есть центральная инженерная идея модуля, которой посвящена глава 10.4: «половина скалярного произведения» — документную половину считаем заранее, запросную и само произведение — на лету.

После модуля вы сможете: объяснить разницу между bi-encoder (две независимые башни, dual-tower) и cross-encoder (запрос и документ кодируются совместно) и понять, почему первый годится для индекса, а второй — только для переранжирования горстки кандидатов; устроить приближённый поиск ближайших соседей (ANN) структурами HNSW и IVF/PQ, чтобы не сравнивать запрос со всеми векторами; применить дистилляцию (distillation) — перенос «знания» тяжёлого cross-encoder в лёгкий bi-encoder; и спроектировать гибридный поиск, где лексический сигнал (BM25) и векторный объединяются в один ранжированный список.

Интуиция. Лексический поиск спрашивает: «встречаются ли в документе те же слова, что в запросе?» Нейропоиск спрашивает: «находится ли документ в той же области смысла, что и запрос?» Первый точен на редких терминах и опечатках-как-есть, второй силён на перефразировках и синонимии. Поэтому в проде их почти всегда комбинируют, а не противопоставляют.

Внимание. Нейропоиск не отменяет BM25. На точных совпадениях, артикулах, кодах ошибок, именах собственных и редких терминах лексика часто бьёт вектора, потому что эмбеддинг «размывает» точные строки. Грамотная система — гибрид, а не замена.

Как читать по трекам

Студент CS — обязательно всё. Ядро — 10.1 (архитектуры энкодеров) и 10.2 (геометрия ANN, HNSW, IVF/PQ). Прорешайте обе лабы. Глава 10.4 — концептуальный стержень, его надо понять до конца.
Инженер поиска/ML — обязательно всё. Особое внимание — инженерным заметкам про материализацию эмбеддингов в индекс (связь с Модулем 4), про параметры HNSW (M, efSearch) и IVF/PQ (nlist, nprobe, число суб-квантизаторов), про переиндексацию при смене модели и про место ANN в каскаде L0–L1 (Модуль 12).
SEO-специалист — обязательно SEO-врезки во всех главах. Главное к усвоению: вектора ранжируют по смыслу, поэтому переспам ключевыми словами теряет силу, а ясная, тематически связная подача текста — выигрывает. Формулы и устройство ANN — обзорно.
Смешанный/руководитель — Обзор, интуиции, заблуждения, глава 10.4 целиком и Итоги. Запомните принцип «документ кодируем офлайн, близость — онлайн» и идею гибрида.

Карта модуля

10.1. Эмбеддинги документов и запросов; bi-encoder vs cross-encoder; dual-tower (продвинутый)
10.2. Офлайн-эмбеддинги документа при индексации; ANN-поиск, HNSW, IVF/PQ (продвинутый)
10.3. Рантайм-близость query↔doc; дистилляция тяжёлых моделей в лёгкие (продвинутый)
10.4. «Половина скалярного произведения»: что считать офлайн (документ), что онлайн (близость) (средний)

Глава 10.1. Эмбеддинги документов и запросов; bi-encoder vs cross-encoder; dual-tower (продвинутый)

Цели обучения

После главы студент сможет:

Объяснить, что такое плотный эмбеддинг текста и чем он отличается от разреженного tf-idf/BM25-представления.
Сформулировать, как близость в векторном пространстве (косинус / скалярное произведение) выражает семантическую релевантность.
Сравнить bi-encoder (dual-tower) и cross-encoder по архитектуре, выразительности и вычислительной стоимости.
Обосновать, почему только bi-encoder допускает офлайн-индексацию документов, а cross-encoder применим лишь к переранжированию кандидатов.
Объяснить, как обучают bi-encoder контрастной функцией потерь с негативами.

Конспект

Что такое эмбеддинг

Эмбеддинг (embedding) текста — это отображение E: текст → R^d, переводящее произвольный фрагмент (запрос, абзац, документ) в плотный вектор фиксированной длины d (типично d ∈ {256, 384, 768, 1024}). Сеть-энкодер обучается так, чтобы семантически близкие тексты давали близкие векторы, а далёкие — далёкие. Близость измеряют скалярным произведением или косинусом:

Нейросетевой поиск (Neural IR)

Нейросетевой поиск (Neural IR)

Re: Нейросетевой поиск (Neural IR)

Re: Нейросетевой поиск (Neural IR)

Re: Нейросетевой поиск (Neural IR)

Кто сейчас на конференции