В наборе web_production числится 1923 фактора. Первое, что обнуляет интуицию новичка - подавляющая часть этого списка не работает. Распределение по статусам выглядит так:
Код: Выделить всё
Статус Кол-во Доля
-----------------------------------
Активен 437 ~23%
Устаревший 777
Не реализован 443
Не используется 143
Удалён 115
Не поддерживается 8
-----------------------------------
Итого 1923
Куда сгруппирован живой весБольшинство "факторов", вокруг которых строятся легенды оптимизаторов, физически не участвуют в ранжировании. Оптимизация под мёртвый слот - это работа в пустоту.
Активные факторы складываются в осмысленные группы. По объёму групп видно, на что система реально смотрит:
Код: Выделить всё
Группа Факторов Смысл
---------------------------------------------------------
Annotation 133 разметка/аннотации документа
Query 85 сигналы запроса и его связи
Xref 60 перелинковка/ссылочные кросс-связи
RapidClicks 33 быстрые клики - поведение
TextBM25 26 текстовая релевантность BM25
RegDocStatic 23 статические признаки документа
RegHostStatic 17 статические признаки хоста
LegacyTR 12 легаси text rank
Domain 10 признаки домена
LinkBM25 9 BM25 по ссылочному тексту
Datetime 8 датирование/свежесть
LegacyLR 7 легаси link rank
BM25F 4 полевой BM25
---------------------------------------------------------
Метаданные формул: где принимается решение
Интереснее статусов - метки формул. Они показывают, какой механизм агрегирует факторы в итоговый порядок выдачи:
Код: Выделить всё
Метка формулы Значение
---------------------------------------------------------
TG_L2 1346 основное ранжирование
TG_L3 30 финальный реранк
TG_NN_OVER_FEATURES_USE 1578 факторы -> нейросеть-над-факторами
TG_TEXT_MACHINE 471 текстовый нейро-блок
TG_NEURAL 309 нейронные признаки
TG_USERFEAT_90D 446 поведение за ~90 дней
TG_DEPRECATED 2117 помечено устаревшим
TG_UNUSED 521 не используется
---------------------------------------------------------
Дальше: TG_L2 [1346] - это основной слой ранжирования, через него проходит основная масса, а TG_L3 [30] - узкий финальный реранк горстки кандидатов. Текстовая обработка вынесена в отдельную машину TG_TEXT_MACHINE [471], нейропризнаки - TG_NEURAL [309], а поведение пользователей за окно около 90 дней - TG_USERFEAT_90D [446]. Метки TG_DEPRECATED [2117] и TG_UNUSED [521] численно перекрывают живую часть - ещё одно подтверждение, что мусора в наборе больше, чем рабочих сигналов.
Иерархия влияния: B больше T больше Q/H/AДисклеймер: конкретные веса ниже иллюстративны. Реальные коэффициенты обучаемы, нелинейны и проприетарны. Всё изложенное - реконструкция по утёкшим метаданным, а не исходник формулы.
Если свести группы к семействам сигналов и расставить их по тому, насколько они двигают позиции и насколько их трудно подделать, складывается такая иерархия:
Код: Выделить всё
B Поведение макс. вес, подделать практически нельзя
T Нейро-текст высокий, поддаётся, но дорого и честно
Q Запрос/URL средний, управляемый
H Хост/история средний, медленный, накопительный
A Аннотации базовый гигиенический слой
T - нейро-текст (TG_TEXT_MACHINE, TextBM25, BM25F). Второй по силе. Здесь работает не плотность ключей, а то, насколько текст семантически отвечает на запрос и как распределён по зонам документа. Это можно улучшить, но только реальным качеством и полнотой ответа.
Q, H, A - управляемая база. Сигналы запроса (Query [85]), статические признаки хоста и документа (RegHostStatic [17], RegDocStatic [23], Domain [10]) и разметка (Annotation [133]) - это не рычаги взрывного роста, а гигиена, без которой верхние слои не раскрываются.
Почему набивка ключей и покупка ссылок бьют в пустоту
Главный практический вывод. Классические манипуляции целятся ровно в те механизмы, которые в наборе помечены как устаревшие, удалённые или нереализованные - в мёртвые слоты:
- Набивка ключей рассчитана на старую плотностную текстовую модель. Но текст обрабатывает TG_TEXT_MACHINE [471] и нейропризнаки TG_NEURAL [309] - они оценивают смысл и зоны, а не частоту слова. Переспам в лучшем случае нейтрален, в типичном - негативный текстовый сигнал.
- Покупка ссылок целит в LegacyLR [7], LinkBM25 [9], частично Xref [60]. Легаси-ранги ссылок - это как раз тающий, частично устаревший пласт. Поведение (B) и нейро-текст (T) их перевешивают, а неестественный ссылочный профиль легко отделяется от естественной перелинковки.
Что делать с любым сайтомМанипуляции дают иллюзию работы, потому что что-то всё ещё реагирует. Но реагируют слабеющие легаси-слоты, а решение принимает нейросеть-над-факторами поверх поведения и семантики.
Переводя иерархию B больше T больше Q/H/A в действия, не привязанные к движку или нише:
- Под поведение (B). Мобильная скорость и мгновенный осмысленный ответ выше линии сгиба. Если пользователь на телефоне видит ответ сразу, без ожидания и без скролла - быстрые клики (RapidClicks [33]) и пользовательские признаки за окно (TG_USERFEAT_90D [446]) работают на вас. Это самый дорогой по эффекту вложенный час.
- Под Q. Человекочитаемые URL, содержащие слова запроса. Группа Query [85] и аннотации читают структуру адреса и разметку; адрес со словами интента - дешёвый и устойчивый сигнал релевантности.
- Под H. Чистый хост и возраст. Статика хоста (RegHostStatic [17], Domain [10]) накапливается медленно: стабильный домен без мусорного соседства и истории - база, которую нельзя купить за день, но можно не испортить.
- Под T. Естественная семантика и работа с зонами документа. Не плотность ключей, а полнота и связность ответа, корректные заголовочные и контентные зоны - то, что оценивают TextBM25 [26], BM25F [4] и текстовая машина.
Из 1923 слотов живых около 23 процентов, и почти все живые уходят в нейросеть-над-факторами (TG_NN_OVER_FEATURES_USE [1578]). Вес концентрируется в поведении (B) и нейро-тексте (T); запрос, хост и аннотации - управляемая база. Покупка ссылок и набивка ключей целятся в устаревшие и удалённые слоты и потому не двигают позиции. Веса иллюстративны, реальные - обучаемы и проприетарны; это реконструкция по метаданным.