Полная картина: робот, индекс и выдача - и что из этого реально для SEO

anna_seo · Сообщение **anna_seo** » 13 июн 2026, 18:05

Полная картина: робот, индекс и выдача - и что из этого реально для SEO

Это сводный, мостовой разбор всей серии: трёх утечек исходников поиска Яндекса. Первая - робот (краулинг и индексация, срез примерно 2022). Вторая - корпус факторов (web_production, ближе к 2026). Третья - рантайм формирования выдачи, каталог search/. По отдельности каждая показывает свой слой. Вместе они складываются в одну непрерывную цепочку: робот готовит холст, факторы - это что на холсте записано и что потом читается, а выдача - каскад L0-L3 плюс около 380 правил rearrange - определяет, какие документы человек реально увидит в топе.

Дисклеймер

Робот - срез примерно 2022, факторы - web_production 2026. За годы слоты добавлялись и умирали, имена полей, пороги и пайплайны могли смениться. Веса формулы иллюстративны - реальные обучаемы (GBDT плюс нейросети) и проприетарны. Соответствие имён робота (поля proto, THostRank, SeoMark) и cpp_name факторов установлено по семантике сигнала, а не побуквенно.

Три слоя как один конвейер

Логика серии прочитывается так. Робот отвечает за индексную правду: ЧТО попадёт в базу, какой URL станет каноном-носителем, с какой статикой, датой и тематикой, в каком тире. Это слой gemini, mirror, superdups, kwyt, selectionrank - выбор индексируемого документа. Он не отдаёт ни одного FI_ фактора напрямую, но определяет носителя ВСЕХ факторов. Это нулевой фактор: без корректной каноникализации owner-rollup, host-size, ссылочные веса и поведение дробятся между дублями.

Код: Выделить всё

РОБОТ (~2022)            ФАКТОРЫ (web_prod)        ВЫДАЧА (search/, рантайм)
краулинг/индексация  -> корпус cpp_name      ->   каскад L0-L3 + rearrange
канон + статика          (что записано)           (что читается, видимый топ)

gemini/mirror/superdups  Datetime, RegDocStatic   base_search/panther (L0/L1)
selectionrank/kwyt       TG_LINK_GRAPH/Xref       rank/formula (L2/L3)
датировщик/самовар       нейро-эмбеддинги doc     web/rearrange + blender (~380)

Корпус факторов - середина. Он описывает, что в принципе можно записать про документ. Но наличие слота не равно влиянию: огромная доля слотов мертва. Domain 0 из 10, TG_CATALOG 0 из 2, TG_DOWNER 2 из 48, Annotation 3 из 133, классический PageRank вообще в TG_UNUSED. Робот может полноценно считать сигнал (каталожная разметка catfilter, whois-антиспам Spam2/SpamKarma/NoSpam), а соответствующий фактор быть TG_DEPRECATED. Поэтому судить о влиянии можно только по третьему слою - рантайму.

Матрица: семейство фактора - где оно читается и правится в search/

Главный мост этого разбора. Берём семейства сигналов из факторного корпуса и показываем, где именно в рантайме они потребляются или корректируются.

Код: Выделить всё

Семейство / сигнал          Где в рантайме search/                  Эффект                       Увер.
--------------------------  -------------------------------------  ---------------------------  -----
Док. статика ERF/keyinv/ann base_search/keyinv (keyinv/ann/        вход GBDT L1/L2              high
                            linkann/factorann.wad), embedding_
                            storage, TFactorStoragesOwner L1/L2
Datetime / свежесть         formula_chooser (F_IS_FRESH_DETECTED   группировки d_fresh, буст    high
                            -> V_FRESH_L2/L3), web/rearrange/       свежих
                            fresh*, boost_condition
Ссылки/анкоры               формально читаются в L2, но            почти 0 для денежных         high
(TG_LINK_GRAPH/Xref/        ОБНУЛЯЮТСЯ AntiSeoResetFactors         запросов                     (есть
LinkBM25)                   для коммерции                                                       сброс)
Нейро query-doc             dssm_boosting, knnboost, lingboost,    крупный вес L2/L3            high
(рантайм-T)                 embedding_storage DSSM-dot
Поведение (B)               rapid_clicks (BigRT, near-RT),         крупный вес L2/L3            high
                            knn по dwell-time
owner/host-агрегаты         host-collapsing (grouping),            ограничение доминирования    high
                            host_presence                          домена в топе
Коммерческость/тематика     formula_chooser                        выбор формулы и фильтров     medium
                            (CommercialMxFactor), модели
                            .regional/.porno, blender
Спам/качество               web/rearrange/antispam (ML-            понижение/удаление           high
                            пессимизация), pruning,
                            document_filtering

Где живёт самый большой вес

Ключевой вывод сопоставления: самые весомые факторы вычисляются в рантайме, не в роботе. Робот делает лишь документную сторону нейро - bert, rthub, jupiter, library инференсят и пакуют эмбеддинги документа (BERT/DSSM/omni/HNSW) при индексации. Это половина скалярного произведения. Вторую половину - близость query-doc - считает уже search/ через DssmBertDistillL2, TextMachine, LingBoost. Робот дал носитель, рантайм даёт смысл совпадения с запросом.

То же с поведением. Внутри RegHostStatic и RegDocStatic живые сильные слоты - это поведенческая статика: USLongPeriod с окнами 1600 дней, YaBarHost, Browser-Dwell. Робот даёт каноничный ключ агрегации, но значения приходят из логов поиска и Бара. Семейство наполовину роботное. А самый оперативный поведенческий сигнал - rapid_clicks - читается прямо в L2/L3 из BigRT в режиме near-RT.

Смерть ссылок - подтверждена с двух сторон

Это самый практически важный синтез серии. Раньше тезис держался на одной стороне - корпусе факторов: LinkBM25 мёртв на 0 из 9, классические Xref XLR - 3 из 60, классический PageRank в TG_UNUSED. Покупка ссылок и анкорная накрутка бьют по мёртвым слотам.

Теперь то же подтверждает рантайм - уже не пассивно (слот не читается), а активно. Для коммерческих московских запросов код явно зануляет ссылочные факторы.

Код: Выделить всё

AntiSeoResetFactors (web/rearrange) - сброс в 0 для коммерции:
  PR
  SR
  NumLinks
  LinkQualityFixed
  SeoInPayLinks
  CommLinksSEOHosts

Робот честно строит весь link-граф с анкорами и анти-SEO-фильтром (samovar/lemur SeoMark, jupiter Link-Ann). Рантайм этот граф читает в L2 - и тут же обнуляет. Для SEO-практики: покупка ссылок и анкорная накрутка на коммерции нейтрализуются на уровне кода, с двух сторон сразу.

Рычаги, которые реально работают по коду

Что остаётся, когда ссылки вычеркнуты. По коду рантайма работают:

host-collapsing - больше примерно 2 URL с одного домена в топ не пускают (NumDocsInGroup, grouping, host_presence). Самый недооценённый барьер - один сайт физически не займёт выдачу.
Свежесть - отдельный контур: F_IS_FRESH_DETECTED поднимает V_FRESH_L2/L3, есть отдельные группировки d_fresh и буст свежих в web/rearrange/fresh.
Поведение и клики - rapid_clicks напрямую в L2/L3, near-RT из BigRT, плюс knn по dwell-time.
Текстовая близость query-doc - lingboost и DSSM-стек. Сюда уходит вес, который раньше отдавали ссылкам.
Отсутствие спам-сигналов - иначе antispam, trash, pruning пессимизируют.

Важная техническая рамка: глубина выдачи ограничена 259 документами, видимый топ доводят рантайм-сигналы и около 380 правил rearrange.

Антиспам - многоуровневый и мягкий

Пессимизация (понижение релевантности по ML-формуле) преобладает над жёстким удалением. Жёсткое удаление - FilterBanned и document_filtering. Есть признак динамического песочного бана - FILTERED_BY_DYNAMIC_ANTISPAM. Выбор формулы и набора фильтров делает formula_chooser по CommercialMxFactor и тематике - отсюда же ветвление на модели .regional/.porno и работа blender.

Итог

Поиск двухслоен. Робот отвечает за индексную правду и каноникализацию - ЧТО индексируется и под каким ключом агрегируется. Ранжирование, то есть вес в видимой выдаче, держится на поведении, нейро-рантайме и запросе - на том, что робот не считает вовсе. Каскад L0-L3 подтверждён в коде ровно как в схеме первого документа. Практический вектор SEO смещается со ссылок (мертвы и активно занулены на коммерции) на канон без дублей, свежесть, текстовую близость к запросу, поведение реальных пользователей и чистоту от спам-сигналов - при жёстком потолке примерно в 2 URL с домена.

Вся серия по устройству поиска

Робот (офлайн: обход и индексация): viewtopic.php?t=1842
Выдача (рантайм: формирование SERP): viewtopic.php?t=1849
Формула ранжирования 2026 (реконструкция): viewtopic.php?t=1828
1924 фактора: что живо, что мёртво: viewtopic.php?t=1834

Полная сводка робот + выдача (xlsx, 13 листов):
images/data/YANDEX_SEARCH_ANALYSIS.xlsx

Полная картина: робот, индекс и выдача - и что из этого реально для SEO

Полная картина: робот, индекс и выдача - и что из этого реально для SEO

Кто сейчас на конференции