1924 фактора ранжирования: что живо, а что давно мёртво

Рейтинг: 0% · 0 голосов
Разбор устройства поиска и факторов ранжирования: реконструкция формулы, поведенческие, текстовые, ссылочные и хостовые факторы, антиспам, что живо и что давно мёртво. Аналитика на основе метаданных факторов web_production.
Ответить
Аватара пользователя
anna_seo
Сообщения: 58
Зарегистрирован: 11 май 2026, 05:31

1924 фактора ранжирования: что живо, а что давно мёртво

Сообщение anna_seo »

Карта слотов: 1923 фактора, из которых работает четверть

В таблице web_production числится 1923 фактора. Это удобный объект для анализа, потому что метаданные содержат не только имена и индексы, но и статус каждого слота: помечен ли он как активный, устаревший, нереализованный и так далее. Первое, что бросается в глаза при разборе статусов - список факторов и реальный набор работающих сигналов это разные вещи. Слот может присутствовать в схеме, иметь имя, индекс и зарезервированное место в векторе признаков, но при этом не давать никакого вклада в ранжирование.
Главный тезис разбора: больше трёх четвертей слотов в web_production - мёртвые, удалённые или нереализованные. Само по себе наличие фактора в списке не означает, что он на что-то влияет.
Ниже приведено распределение по статусам. Веса и проценты здесь иллюстративны для понимания пропорций - это реконструкция по метаданным, реальные обучаемые параметры формулы проприетарны и в утечке не фигурируют.

Код: Выделить всё

Статус               Кол-во   Доля     Что это значит
-------------------  ------  ------    ----------------------------------
Активен                 437  ~23%     реально считается и идёт в формулу
Устаревший              777   ~40%    legacy, оставлен для совместимости
Не реализован           443   ~23%    слот есть, кода расчёта нет
Не используется         143    ~7%    считается, но в формулу не входит
Удалён                  115    ~6%    выпилен, слот остался пустым
Не поддерживается         8   ~0.4%   мёртвый хвост
-------------------  ------  ------
Активных                437   ~23%
Мёртвых/нерабочих      1486   ~77%
ИТОГО                  1923   100%
Что отсюда следует

Категория Устаревший - самая крупная, 777 слотов, почти половина таблицы. Это исторический балласт: факторы, которые когда-то участвовали в ранжировании, но были вытеснены более новыми сигналами и нейросетевыми блоками. Их не удаляют физически, чтобы не ломать индексы и порядок признаков в векторе. Следом идут 443 нереализованных слота - зарезервированные имена без расчётного кода. Ещё 143 считаются, но никуда не подаются (Не используется), 115 удалены, 8 не поддерживаются. Суммарно 1486 слотов из 1923 не дают вклада. Работают 437.

Реальные группы факторов

Если сгруппировать слоты по семействам (по префиксу имени и природе сигнала), вырисовывается понятная структура. Это не статусы, а тематические кластеры - в каждом есть и живые, и мёртвые слоты.

Код: Выделить всё

Группа           Слотов   Природа сигнала
--------------   ------   -----------------------------------------
Annotation          133   аннотации, тексты ссылок, окружение
Query                85   признаки самого запроса
Xref                 60   перелинковка, ссылочные пересечения
RapidClicks          33   быстрые клики, поведенческие
TextBM25             26   текстовая релевантность BM25
RegDocStatic         23   статические признаки документа (рег.)
RegHostStatic        17   статические признаки хоста (рег.)
LegacyTR             12   старый TextRank-блок
Domain               10   доменные сигналы
LinkBM25              9   BM25 по ссылочному тексту
Datetime              8   свежесть, временные признаки
LegacyLR              7   старый LinkRank-блок
BM25F                 4   полевой BM25 (зоны документа)
--------------   ------
Крупнейшая группа - Annotation (133 слота): всё, что связано с аннотациями, текстами входящих ссылок и текстовым окружением документа. Дальше Query (85) - признаки запроса как такового. Xref (60) - ссылочные пересечения и перелинковка. Поведение представлено группой RapidClicks (33). Текстовая релевантность разнесена по нескольким семействам: TextBM25 (26), LinkBM25 (9), BM25F (4) - последнее это полевой BM25, считающий релевантность отдельно по зонам документа. Статика разбита на документную и хостовую: RegDocStatic (23) и RegHostStatic (17). Префикс Legacy у групп LegacyTR (12) и LegacyLR (7) прямо маркирует устаревшие текст- и линк-блоки - наглядная иллюстрация того, как старые сигналы доживают в схеме, не будучи выключенными.

Метки формулы: куда подаются живые факторы

Помимо статусов, в метаданных есть метки (tags), которые показывают, в какую часть конструкции попадает фактор. По ним можно реконструировать архитектуру формулы.

Код: Выделить всё

Метка                       Слотов   Роль в формуле
-------------------------   ------   ------------------------------------
TG_L2                         1346   основное ранжирование (L2)
TG_L3                           30   финальный реранк верхушки выдачи
TG_NN_OVER_FEATURES_USE       1578   подаётся в нейросеть над факторами
TG_TEXT_MACHINE                471   текстовый матчинг-движок
TG_NEURAL                      309   нейросетевые признаки
TG_USERFEAT_90D                446   пользовательские признаки за 90 дней
TG_DEPRECATED                 2117   помечено как устаревшее
TG_UNUSED                      521   помечено как неиспользуемое
Как читать эти числа

Метки пересекаются: один слот может нести несколько тегов, поэтому суммы по меткам не равны 1923 и не складываются в общее число. Это разрезы одного и того же множества под разными углами.

TG_L2 (1346) - основной слой ранжирования, где формируется базовый порядок документов. TG_L3 (30) - узкий финальный реранк: на этом этапе пересортировывается только верхушка выдачи, и слотов там на порядки меньше. Самая массовая метка из работающих - TG_NN_OVER_FEATURES_USE (1578): почти все живые факторы заходят не напрямую в линейную часть, а через нейросеть над факторами. Это ключевой архитектурный факт - вклад отдельного слота не аддитивен и не интерпретируется в лоб, он растворяется в нелинейном блоке поверх вектора признаков.

Отдельные подсистемы тоже видны по меткам: TG_TEXT_MACHINE (471) - текстовый матчинг, TG_NEURAL (309) - нейросетевые признаки, TG_USERFEAT_90D (446) - поведенческая агрегация за 90-дневное окно. И на контрасте - TG_DEPRECATED (2117) и TG_UNUSED (521), которые покрывают больше слотов, чем вся таблица web_production: значит, эти метки навешаны и на факторы из других таблиц/срезов схемы, а не только на 1923 рассматриваемых. Сам масштаб устаревшего и неиспользуемого здесь - ещё одно подтверждение основного тезиса.

Выводы
Список факторов - это карта слотов в схеме, а не список рычагов влияния. 23 процента активны, 77 процентов - устаревшие, нереализованные, неиспользуемые или удалённые. Имя в утечке само по себе ничего не доказывает о вкладе в выдачу.
  • Работающих факторов - около 437. Остальные 1486 слотов держатся в схеме ради совместимости и стабильности индексов, а не ради вклада в ранжирование.
  • Структура сигналов смещена в сторону текста и аннотаций (Annotation, TextBM25, LinkBM25, BM25F, TG_TEXT_MACHINE), запроса (Query), ссылок (Xref) и поведения (RapidClicks, TG_USERFEAT_90D).
  • Префикс Legacy (LegacyTR, LegacyLR) и метка TG_DEPRECATED показывают legacy-слой в явном виде - это и есть наглядная граница между живым и мёртвым.
  • Почти все живые факторы (TG_NN_OVER_FEATURES_USE, 1578) уходят в нейросеть над факторами. Поэтому вес отдельного слота не интерпретируется напрямую: он работает в нелинейной комбинации, а не как самостоятельный множитель.
Разбор конкретных слотов, которые принято считать рабочими, но которые помечены как устаревшие или неиспользуемые, вынесен в отдельный тред-кладбище. Здесь задача была дать карту: где в этих 1923 строках живые сигналы, а где зарезервированные имена.
Дисклеймер: проценты и веса в разборе иллюстративны и приведены для понимания пропорций. Реальные параметры формулы обучаемы и проприетарны. Всё изложенное - реконструкция по метаданным web_production, а не выгрузка действующих коэффициентов ранжирования.
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «SEO и факторы ранжирования»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость