Это сводный, мостовой разбор всей серии: трёх утечек исходников поиска Яндекса. Первая - робот (краулинг и индексация, срез примерно 2022). Вторая - корпус факторов (web_production, ближе к 2026). Третья - рантайм формирования выдачи, каталог search/. По отдельности каждая показывает свой слой. Вместе они складываются в одну непрерывную цепочку: робот готовит холст, факторы - это что на холсте записано и что потом читается, а выдача - каскад L0-L3 плюс около 380 правил rearrange - определяет, какие документы человек реально увидит в топе.
Дисклеймер
Три слоя как один конвейерРобот - срез примерно 2022, факторы - web_production 2026. За годы слоты добавлялись и умирали, имена полей, пороги и пайплайны могли смениться. Веса формулы иллюстративны - реальные обучаемы (GBDT плюс нейросети) и проприетарны. Соответствие имён робота (поля proto, THostRank, SeoMark) и cpp_name факторов установлено по семантике сигнала, а не побуквенно.
Логика серии прочитывается так. Робот отвечает за индексную правду: ЧТО попадёт в базу, какой URL станет каноном-носителем, с какой статикой, датой и тематикой, в каком тире. Это слой gemini, mirror, superdups, kwyt, selectionrank - выбор индексируемого документа. Он не отдаёт ни одного FI_ фактора напрямую, но определяет носителя ВСЕХ факторов. Это нулевой фактор: без корректной каноникализации owner-rollup, host-size, ссылочные веса и поведение дробятся между дублями.
Код: Выделить всё
РОБОТ (~2022) ФАКТОРЫ (web_prod) ВЫДАЧА (search/, рантайм)
краулинг/индексация -> корпус cpp_name -> каскад L0-L3 + rearrange
канон + статика (что записано) (что читается, видимый топ)
gemini/mirror/superdups Datetime, RegDocStatic base_search/panther (L0/L1)
selectionrank/kwyt TG_LINK_GRAPH/Xref rank/formula (L2/L3)
датировщик/самовар нейро-эмбеддинги doc web/rearrange + blender (~380)
Матрица: семейство фактора - где оно читается и правится в search/
Главный мост этого разбора. Берём семейства сигналов из факторного корпуса и показываем, где именно в рантайме они потребляются или корректируются.
Код: Выделить всё
Семейство / сигнал Где в рантайме search/ Эффект Увер.
-------------------------- ------------------------------------- --------------------------- -----
Док. статика ERF/keyinv/ann base_search/keyinv (keyinv/ann/ вход GBDT L1/L2 high
linkann/factorann.wad), embedding_
storage, TFactorStoragesOwner L1/L2
Datetime / свежесть formula_chooser (F_IS_FRESH_DETECTED группировки d_fresh, буст high
-> V_FRESH_L2/L3), web/rearrange/ свежих
fresh*, boost_condition
Ссылки/анкоры формально читаются в L2, но почти 0 для денежных high
(TG_LINK_GRAPH/Xref/ ОБНУЛЯЮТСЯ AntiSeoResetFactors запросов (есть
LinkBM25) для коммерции сброс)
Нейро query-doc dssm_boosting, knnboost, lingboost, крупный вес L2/L3 high
(рантайм-T) embedding_storage DSSM-dot
Поведение (B) rapid_clicks (BigRT, near-RT), крупный вес L2/L3 high
knn по dwell-time
owner/host-агрегаты host-collapsing (grouping), ограничение доминирования high
host_presence домена в топе
Коммерческость/тематика formula_chooser выбор формулы и фильтров medium
(CommercialMxFactor), модели
.regional/.porno, blender
Спам/качество web/rearrange/antispam (ML- понижение/удаление high
пессимизация), pruning,
document_filtering
Ключевой вывод сопоставления: самые весомые факторы вычисляются в рантайме, не в роботе. Робот делает лишь документную сторону нейро - bert, rthub, jupiter, library инференсят и пакуют эмбеддинги документа (BERT/DSSM/omni/HNSW) при индексации. Это половина скалярного произведения. Вторую половину - близость query-doc - считает уже search/ через DssmBertDistillL2, TextMachine, LingBoost. Робот дал носитель, рантайм даёт смысл совпадения с запросом.
То же с поведением. Внутри RegHostStatic и RegDocStatic живые сильные слоты - это поведенческая статика: USLongPeriod с окнами 1600 дней, YaBarHost, Browser-Dwell. Робот даёт каноничный ключ агрегации, но значения приходят из логов поиска и Бара. Семейство наполовину роботное. А самый оперативный поведенческий сигнал - rapid_clicks - читается прямо в L2/L3 из BigRT в режиме near-RT.
Смерть ссылок - подтверждена с двух сторон
Это самый практически важный синтез серии. Раньше тезис держался на одной стороне - корпусе факторов: LinkBM25 мёртв на 0 из 9, классические Xref XLR - 3 из 60, классический PageRank в TG_UNUSED. Покупка ссылок и анкорная накрутка бьют по мёртвым слотам.
Теперь то же подтверждает рантайм - уже не пассивно (слот не читается), а активно. Для коммерческих московских запросов код явно зануляет ссылочные факторы.
Код: Выделить всё
AntiSeoResetFactors (web/rearrange) - сброс в 0 для коммерции:
PR
SR
NumLinks
LinkQualityFixed
SeoInPayLinks
CommLinksSEOHosts
Рычаги, которые реально работают по кодуРобот честно строит весь link-граф с анкорами и анти-SEO-фильтром (samovar/lemur SeoMark, jupiter Link-Ann). Рантайм этот граф читает в L2 - и тут же обнуляет. Для SEO-практики: покупка ссылок и анкорная накрутка на коммерции нейтрализуются на уровне кода, с двух сторон сразу.
Что остаётся, когда ссылки вычеркнуты. По коду рантайма работают:
- host-collapsing - больше примерно 2 URL с одного домена в топ не пускают (NumDocsInGroup, grouping, host_presence). Самый недооценённый барьер - один сайт физически не займёт выдачу.
- Свежесть - отдельный контур: F_IS_FRESH_DETECTED поднимает V_FRESH_L2/L3, есть отдельные группировки d_fresh и буст свежих в web/rearrange/fresh.
- Поведение и клики - rapid_clicks напрямую в L2/L3, near-RT из BigRT, плюс knn по dwell-time.
- Текстовая близость query-doc - lingboost и DSSM-стек. Сюда уходит вес, который раньше отдавали ссылкам.
- Отсутствие спам-сигналов - иначе antispam, trash, pruning пессимизируют.
Антиспам - многоуровневый и мягкий
Пессимизация (понижение релевантности по ML-формуле) преобладает над жёстким удалением. Жёсткое удаление - FilterBanned и document_filtering. Есть признак динамического песочного бана - FILTERED_BY_DYNAMIC_ANTISPAM. Выбор формулы и набора фильтров делает formula_chooser по CommercialMxFactor и тематике - отсюда же ветвление на модели .regional/.porno и работа blender.
Итог
Вся серия по устройству поискаПоиск двухслоен. Робот отвечает за индексную правду и каноникализацию - ЧТО индексируется и под каким ключом агрегируется. Ранжирование, то есть вес в видимой выдаче, держится на поведении, нейро-рантайме и запросе - на том, что робот не считает вовсе. Каскад L0-L3 подтверждён в коде ровно как в схеме первого документа. Практический вектор SEO смещается со ссылок (мертвы и активно занулены на коммерции) на канон без дублей, свежесть, текстовую близость к запросу, поведение реальных пользователей и чистоту от спам-сигналов - при жёстком потолке примерно в 2 URL с домена.
- Робот (офлайн: обход и индексация): viewtopic.php?t=1842
- Выдача (рантайм: формирование SERP): viewtopic.php?t=1849
- Формула ранжирования 2026 (реконструкция): viewtopic.php?t=1828
- 1924 фактора: что живо, что мёртво: viewtopic.php?t=1834
images/data/YANDEX_SEARCH_ANALYSIS.xlsx