Что из 1924 факторов реально двигает позиции: практический синтез

anna_seo · Сообщение **anna_seo** » 13 июн 2026, 17:43

Зачем считать факторы, которых нет

В наборе web_production числится 1923 фактора. Первое, что обнуляет интуицию новичка - подавляющая часть этого списка не работает. Распределение по статусам выглядит так:

Код: Выделить всё

Статус             Кол-во   Доля
-----------------------------------
Активен             437     ~23%
Устаревший          777
Не реализован       443
Не используется     143
Удалён              115
Не поддерживается     8
-----------------------------------
Итого              1923

То есть рабочих слотов около 23 процентов, а ~77 процентов - мёртвый или нерабочий балласт: устаревшие, недореализованные, удалённые, неподдерживаемые. Практический вывод из одной этой таблицы важнее любой отдельной формулы.

Большинство "факторов", вокруг которых строятся легенды оптимизаторов, физически не участвуют в ранжировании. Оптимизация под мёртвый слот - это работа в пустоту.

Куда сгруппирован живой вес

Активные факторы складываются в осмысленные группы. По объёму групп видно, на что система реально смотрит:

Код: Выделить всё

Группа           Факторов   Смысл
---------------------------------------------------------
Annotation         133      разметка/аннотации документа
Query               85      сигналы запроса и его связи
Xref                60      перелинковка/ссылочные кросс-связи
RapidClicks         33      быстрые клики - поведение
TextBM25            26      текстовая релевантность BM25
RegDocStatic        23      статические признаки документа
RegHostStatic       17      статические признаки хоста
LegacyTR            12      легаси text rank
Domain              10      признаки домена
LinkBM25             9      BM25 по ссылочному тексту
Datetime             8      датирование/свежесть
LegacyLR             7      легаси link rank
BM25F                4      полевой BM25
---------------------------------------------------------

Сама по себе численность группы не равна её весу - но показывает, во что вложено инженерное внимание. Крупнейшие живые блоки - Annotation [133], Query [85], Xref [60]. А поведенческая группа RapidClicks [33] идёт сразу за текстовой релевантностью, хотя текстовых семейств в списке несколько (TextBM25 [26], LinkBM25 [9], BM25F [4], LegacyTR [12]).

Метаданные формул: где принимается решение

Интереснее статусов - метки формул. Они показывают, какой механизм агрегирует факторы в итоговый порядок выдачи:

Код: Выделить всё

Метка формулы              Значение
---------------------------------------------------------
TG_L2                      1346   основное ранжирование
TG_L3                        30   финальный реранк
TG_NN_OVER_FEATURES_USE    1578   факторы -> нейросеть-над-факторами
TG_TEXT_MACHINE             471   текстовый нейро-блок
TG_NEURAL                   309   нейронные признаки
TG_USERFEAT_90D             446   поведение за ~90 дней
TG_DEPRECATED              2117   помечено устаревшим
TG_UNUSED                   521   не используется
---------------------------------------------------------

Ключевое наблюдение - TG_NN_OVER_FEATURES_USE [1578]. Почти все живые факторы не складываются линейно с весами, а подаются на вход нейросети-над-факторами. Это значит, что "вес фактора" - не константа, а обучаемая нелинейная функция от всего вектора признаков. Линейная модель из ручных коэффициентов - устаревшая ментальная модель ранжирования.

Дальше: TG_L2 [1346] - это основной слой ранжирования, через него проходит основная масса, а TG_L3 [30] - узкий финальный реранк горстки кандидатов. Текстовая обработка вынесена в отдельную машину TG_TEXT_MACHINE [471], нейропризнаки - TG_NEURAL [309], а поведение пользователей за окно около 90 дней - TG_USERFEAT_90D [446]. Метки TG_DEPRECATED [2117] и TG_UNUSED [521] численно перекрывают живую часть - ещё одно подтверждение, что мусора в наборе больше, чем рабочих сигналов.

Дисклеймер: конкретные веса ниже иллюстративны. Реальные коэффициенты обучаемы, нелинейны и проприетарны. Всё изложенное - реконструкция по утёкшим метаданным, а не исходник формулы.

Иерархия влияния: B больше T больше Q/H/A

Если свести группы к семействам сигналов и расставить их по тому, насколько они двигают позиции и насколько их трудно подделать, складывается такая иерархия:

Код: Выделить всё

B  Поведение      макс. вес, подделать практически нельзя
T  Нейро-текст    высокий, поддаётся, но дорого и честно
Q  Запрос/URL     средний, управляемый
H  Хост/история   средний, медленный, накопительный
A  Аннотации      базовый гигиенический слой

B - поведение (RapidClicks, TG_USERFEAT_90D). Самый сильный и самый неподделываемый класс. Сигнал генерируется не вами, а пользователями выдачи, и усредняется по окну около 90 дней. Накрутить его дёшево и стабильно нельзя - на дистанции честное поведение перебивает любую попытку имитации.

T - нейро-текст (TG_TEXT_MACHINE, TextBM25, BM25F). Второй по силе. Здесь работает не плотность ключей, а то, насколько текст семантически отвечает на запрос и как распределён по зонам документа. Это можно улучшить, но только реальным качеством и полнотой ответа.

Q, H, A - управляемая база. Сигналы запроса (Query [85]), статические признаки хоста и документа (RegHostStatic [17], RegDocStatic [23], Domain [10]) и разметка (Annotation [133]) - это не рычаги взрывного роста, а гигиена, без которой верхние слои не раскрываются.

Почему набивка ключей и покупка ссылок бьют в пустоту

Главный практический вывод. Классические манипуляции целятся ровно в те механизмы, которые в наборе помечены как устаревшие, удалённые или нереализованные - в мёртвые слоты:

Набивка ключей рассчитана на старую плотностную текстовую модель. Но текст обрабатывает TG_TEXT_MACHINE [471] и нейропризнаки TG_NEURAL [309] - они оценивают смысл и зоны, а не частоту слова. Переспам в лучшем случае нейтрален, в типичном - негативный текстовый сигнал.
Покупка ссылок целит в LegacyLR [7], LinkBM25 [9], частично Xref [60]. Легаси-ранги ссылок - это как раз тающий, частично устаревший пласт. Поведение (B) и нейро-текст (T) их перевешивают, а неестественный ссылочный профиль легко отделяется от естественной перелинковки.

Манипуляции дают иллюзию работы, потому что что-то всё ещё реагирует. Но реагируют слабеющие легаси-слоты, а решение принимает нейросеть-над-факторами поверх поведения и семантики.

Что делать с любым сайтом

Переводя иерархию B больше T больше Q/H/A в действия, не привязанные к движку или нише:

Под поведение (B). Мобильная скорость и мгновенный осмысленный ответ выше линии сгиба. Если пользователь на телефоне видит ответ сразу, без ожидания и без скролла - быстрые клики (RapidClicks [33]) и пользовательские признаки за окно (TG_USERFEAT_90D [446]) работают на вас. Это самый дорогой по эффекту вложенный час.
Под Q. Человекочитаемые URL, содержащие слова запроса. Группа Query [85] и аннотации читают структуру адреса и разметку; адрес со словами интента - дешёвый и устойчивый сигнал релевантности.
Под H. Чистый хост и возраст. Статика хоста (RegHostStatic [17], Domain [10]) накапливается медленно: стабильный домен без мусорного соседства и истории - база, которую нельзя купить за день, но можно не испортить.
Под T. Естественная семантика и работа с зонами документа. Не плотность ключей, а полнота и связность ответа, корректные заголовочные и контентные зоны - то, что оценивают TextBM25 [26], BM25F [4] и текстовая машина.

Итог

Из 1923 слотов живых около 23 процентов, и почти все живые уходят в нейросеть-над-факторами (TG_NN_OVER_FEATURES_USE [1578]). Вес концентрируется в поведении (B) и нейро-тексте (T); запрос, хост и аннотации - управляемая база. Покупка ссылок и набивка ключей целятся в устаревшие и удалённые слоты и потому не двигают позиции. Веса иллюстративны, реальные - обучаемы и проприетарны; это реконструкция по метаданным.

Что из 1924 факторов реально двигает позиции: практический синтез

Что из 1924 факторов реально двигает позиции: практический синтез

Кто сейчас на конференции