Текстовая релевантность

kirill_ir · Сообщение **kirill_ir** » 21 май 2026, 19:49

Часть III · ~8 ч · Сложность: (средний) · Пререквизиты: Модуль 1, 4

Обзор модуля

Текстовая релевантность — это попытка ответить на вопрос «насколько хорошо слова документа объясняют слова запроса», опираясь только на сам текст, без ссылочного графа, поведения пользователей и машинного обучения. Это самый старый и самый понятный класс факторов ранжирования, и одновременно — фундамент, поверх которого надстраивается всё остальное. В сквозном конвейере «обход → индекс → факторы → ранжирование → выдача → постобработка → измерение» этот модуль живёт на стыке индекса (Модуль 4) и факторов (Модуль 8): мы уже умеем находить документы, содержащие термины запроса, и теперь учимся присваивать им числовую оценку соответствия.

В Модуле 1 вы познакомились с булевой и векторной моделями и общей идеей tf-idf. Здесь мы делаем шаг к промышленным методам: разбираем вероятностную модель BM25 и её строгий вывод, расширяем её на документы со структурой (BM25F), затем выходим за пределы «мешка слов» — учитываем покрытие запроса, близость и порядок слов (proximity), фразовость, зональные веса полей и, наконец, внешние тексты-источники (якорный текст и тексты ссылающихся страниц). Именно эти сигналы образуют признаки нижнего уровня каскада ранжирования (L0–L1, Модуль 12), которые потом подаются в обучаемые модели (Модуль 9) и нейропоиск (Модуль 10).

После модуля вы сможете: вывести формулу BM25 из вероятностных соображений и руками посчитать скор для мини-корпуса; объяснить, как k1 и b управляют насыщением и нормировкой длины; настроить веса полей в BM25F; реализовать оценку близости слов и фраз; и грамотно отделить «честные» текстовые сигналы от того, что выглядит как переспам и ловится антиспамом (Модуль 16).

Интуиция. Текстовая релевантность отвечает на вопрос «о том ли этот документ?», а не «хорош ли он?». Авторитетность, свежесть, удобство — это другие модули. Здесь мы измеряем именно тематическое совпадение текста с запросом.

Как читать по трекам

Студент CS — обязательно всё. Главы 6.1 (вывод BM25) и 6.2 (модели близости) — ядро теории IR. Прорешайте обе лабы руками.
Инженер поиска/ML — обязательно всё, особенно инженерные заметки про предвычисление IDF, позиционные постинги и стоимость proximity. Эти признаки вы будете считать в L0–L1.
SEO-специалист — обязательно SEO-врезки во всех главах и главы 6.3–6.4 целиком (title, заголовки, якоря). Вывод формулы в 6.1 — обзорно, но прочитайте раздел про насыщение и переспам.
Смешанный/руководитель — Обзор модуля, интуиции, заблуждения и итоги. Формулы можно пролистать, но запомните роль k1, b и идею насыщения.

Карта модуля

6.1. BM25/BM25F и насыщение частоты термина, роль k1 и b (средний)
6.2. Покрытие запроса, близость слов (proximity), порядок и фразовость (средний)
6.3. Зональная релевантность и веса полей (title/тело/URL/заголовки) (средний)
6.4. Якорный текст и тексты-источники как сигнал релевантности (средний)

Глава 6.1. BM25/BM25F и насыщение частоты термина, роль k1 и b (средний)

Цели обучения

После главы студент сможет:

Объяснить, почему вклад частоты термина должен насыщаться, а не расти линейно.
Вывести формулу BM25 из вероятностной модели релевантности и из соображений насыщения.
Объяснить роль и предельные случаи параметров k1 (насыщение) и b (нормировка длины).
Руками посчитать BM25 для небольшого корпуса.
Обобщить формулу до BM25F для документов с несколькими полями.

Конспект

Базовая идея текстового ранжирования: документ d тем релевантнее запросу q, чем чаще в нём встречаются слова запроса — но с двумя поправками. Первая: слово должно быть редким (частые слова вроде «и», «как» почти ничего не различают). Вторая: вклад частоты должен насыщаться (выходить на плато). BM25 — это формула, которая аккуратно совмещает обе поправки и добавляет третью: поправку на длину документа.

Шаг 1. Почему частота должна насыщаться

Интуиция. Если слово «ипотека» встретилось в документе 1 раз против 0 — это огромный скачок смысла: документ вообще «про это». 50 раз против 49 — почти ничего нового: и так понятно, что документ про ипотеку. Вклад частоты должен резко расти у нуля и выходить на плато при больших значениях.

Линейная функция tf (как в наивном tf-idf) этого не даёт: 50 вхождений она оценивает в 50 раз весомее одного. Нам нужна вогнутая, ограниченная сверху функция от tf. Простейшее семейство с нужным поведением:

Текстовая релевантность

Текстовая релевантность

Re: Текстовая релевантность

Re: Текстовая релевантность

Re: Текстовая релевантность

Кто сейчас на конференции