Утечка метаданных факторов ранжирования из таблицы web_production дала редкий повод посмотреть на то, чем на самом деле забит современный ранкер. И первое, что бросается в глаза, - это не список рабочих сигналов, а гигантское кладбище. Из 1923 описанных слотов реально активны 437 - примерно 23 процента. Всё остальное в том или ином виде мертво.
Сразу дисклеймер
Анатомия кладбищаВеса факторов ниже иллюстративны. Реальные веса обучаемы и проприетарны, они не лежат в метаданных. То, что мы видим, - это статусы слотов, имена семейств и привязка к формулам. Дальнейшее - реконструкция по этим метаданным, а не выгрузка коэффициентов.
Распределение по статусам выглядит так:
Код: Выделить всё
Статус Кол-во Доля
---------------- ------ -----
Активен 437 ~23%
Устаревший 777 ~40%
Не реализован 443 ~23%
Не используется 143 ~7%
Удалён 115 ~6%
Не поддерживается 8 ~0.4%
---------------- ------ -----
Всего 1923 100%
Живые семейства факторов при этом вполне конкретны:
Код: Выделить всё
Семейство Активных факторов
-------------- -----------------
Annotation 133
Query 85
Xref 60
RapidClicks 33
TextBM25 26
RegDocStatic 23
RegHostStatic 17
LegacyTR 12
Domain 10
LinkBM25 9
Datetime 8
LegacyLR 7
BM25F 4
Код: Выделить всё
TG_L2 1346 основное ранжирование
TG_L3 30 финальный реранк
TG_NN_OVER_FEATURES_USE 1578 нейросеть над факторами
TG_TEXT_MACHINE 471 текстовая машина
TG_NEURAL 309 нейронные сигналы
TG_USERFEAT_90D 446 поведение за 90 дней
TG_DEPRECATED 2117 помечены как устаревшие
TG_UNUSED 521 не используются
Правило кладбища
Дальше - конкретные могилы и мифы, которые из них выросли.Вес фактора обратно пропорционален лёгкости его накрутки. Чем проще сигнал подделать на стороне сайта или дешёвыми внешними действиями, тем быстрее он переезжает в TG_DEPRECATED или TG_UNUSED. Кладбище - это в основном свалка легко-накручиваемых сигналов.
Миф 1. Покупка ссылок и классический PageRank
Классический PageRank в метаданных лежит под TG_UNUSED. Туда же ушла вся линковая текстовая релевантность LinkBM25 (9 факторов, мертва) и значительная часть исторических ссылочных семейств. Ссылочный граф не исчез как понятие, но прямой пересчёт "много ссылок - высокий статический вес страницы" в виде отдельного работающего фактора отключён.
Что породило. Индустрию покупки ссылок и прогонов. Логика была линейной: ссылка добавляет PageRank, PageRank умножается на остальное, профит. Когда базовый множитель отправлен в UNUSED, а релевантность анкоров (LinkBM25) мертва, эта арифметика перестаёт работать. Ссылки массой и анкорами с точным вхождением - это ровно тот класс сигналов, который дёшево накручивается, поэтому он и переехал на кладбище в первую очередь.
Миф 2. Прогон по каталогам и Xref/XLR
Семейство Xref числится с 60 факторами, но классическая его часть (XLR и старые кросс-ссылочные сигналы) мертва. Это исторический пласт, выросший из эпохи каталогов, кольцевых ссылок и взаимного обмена.
Что породило. Прогоны по каталогам, сабмиты в тысячи директорий, линкфермы. Сам факт того, что от Xref осталась оболочка из 60 слотов, а рабочая логика выпотрошена, объясняет, почему каталожный прогон годами "по таблице вроде учитывается", а на выдаче не даёт ничего. Слот жив, сигнал мёртв.
Миф 3. Возраст домена сам по себе
Статические доменные и хостовые сигналы представлены семействами RegDocStatic (23), RegHostStatic (17), Domain (10), Datetime (8). Они частично живы, но это не "возраст домена как бонус". Datetime и регистрационная статика - это про свежесть документа, историю хоста и стабильность, а не про абстрактную выслугу лет.
Что породило. Миф "старый домен ранжируется лучше просто потому что старый", культ дроп-доменов под возраст. Метаданные показывают, что отдельного жирного фактора "возраст домена" нет - есть набор хостовых статиков, и возраст в них в лучшем случае один из слабых входов в общую модель. Покупать домен ради цифры регистрации - оптимизация под сигнал, которого в таком виде не существует.
Миф 4. Плотность ключевиков и точное вхождение
Текстовая релевантность жива, но в современном виде: TextBM25 (26), BM25F (4), плюс огромный пласт TG_TEXT_MACHINE (471) и Annotation (133). А вот плотность ключей и meta-keywords - на кладбище. Старые спам-классификаторы Spam2, SpamKarma, NoSpam, которые ловили переспам, тоже устарели вместе со своей эпохой.
Что породило. Два связанных мифа: плотность ключевиков (держи N процентов вхождений) и точное вхождение (фраза должна стоять дословно). BM25 и BM25F нелинейны по частоте: после насыщения добавочные повторы термина почти ничего не дают, а через TG_NN_OVER_FEATURES_USE даже этот сигнал переваривается нейросетью. Meta-keywords мертвы полностью - это был самый легко-накручиваемый текстовый слот, поэтому он и ушёл раньше всех. Точное вхождение размывается текстовой машиной и аннотациями, которые работают с переформулировками, а не с дословной строкой.
Миф 5. Накрутка кликов и поведенческие
Поведение представлено живо и серьёзно: RapidClicks (33) и весь пласт TG_USERFEAT_90D (446) - пользовательские признаки за 90 дней. Но накрутка именно старых, простых кликовых сигналов помечена как устаревшая.
Что породило. Биржи накрутки поведенческих и ботоводство по кликам. Старые наивные кликовые слоты, которые считали "клик есть - плюс", легко имитировались, поэтому отправились в deprecated. На их месте - оконные пользовательские признаки за 90 дней и RapidClicks, которые смотрят на паттерн, а не на единичное событие. Это ровно иллюстрация правила: примитивный клик-сигнал накручивался дёшево и умер, сложный поведенческий профиль за окно - выжил.
LegacyTR, LegacyLR и общий смысл
Семейства LegacyTR (12) и LegacyLR (7) уже своими именами признаются legacy - это доживающие хвосты старых текстовых и линковых ранков, тянущиеся ради совместимости. Их малый размер на фоне Annotation (133) и Query (85) показывает, куда сместился центр тяжести: от статических ссылочно-текстовых костылей к запросно-зависимым аннотациям и нейросетевой обработке.
Вывод
Ещё раз про ограничения данных. Всё выше - реконструкция по статусам слотов и тегам формул из web_production. Конкретные обучаемые веса в утечке метаданных отсутствуют и остаются проприетарными; цифры по семействам и формулам - это число привязок и активных слотов, а не коэффициенты важности.Кладбище факторов - это история о том, как поисковая система съедает собственную накручиваемость. Семьдесят семь процентов слотов мертвы не случайно: туда систематически уезжают сигналы, которые легко подделать дёшево и со стороны сайта. PageRank-масса, анкоры, каталоги, плотность ключей, meta-keywords, наивные клики - всё это классы легко-накручиваемых сигналов, и все они на кладбище. Живое - это запросно-зависимые аннотации, нелинейный BM25 внутри текстовой машины и поведенческие профили за окно, пропущенные через нейросеть-над-факторами. SEO-мифы живут потому, что оптимизаторы читают имя мёртвого слота и достраивают под него теорию. Имя в таблице - не сигнал в ранкере.