Решил собрать в один тред то, что мы по кускам разбирали в этом разделе про Google, и сопоставить с нашей формулой Яндекса из Форума SEO и факторы ранжирования. Вопрос простой: два крупнейших поисковика, оба пережили утечку, оба судятся или светятся в антимонопольных делах - насколько у них одинаковая физика ранжирования и где она расходится. Спойлер: ядро похоже до неприличия, а вот обвязка вокруг него разная.
Архитектура: конвейер против каскадаДисклеймер сразу. Всё ниже - реконструкция по утечке Google Content Warehouse (май 2024), материалам процесса DOJ против Google (показания 2023-2025), патентам и Quality Rater Guidelines, плюс наш разбор утечки Яндекса (январь 2023). Это не официальные формулы и не уравнения с коэффициентами. Часть сигналов спорна, часть полей в дампах помечена как unused. Читать как карту, а не как чертёж продакшена.
Главное, что надо понять про Google: это не одна формула, а цепочка систем. Документ сначала должен попасть в индекс и участвовать в отборе, потом оценивается релевантность запросу, потом качество, потом включаются демоушены и фильтры риска, и только в самом конце - тонкие корректировки по свежести, гео и поведению. Для аудита это удобно: видно, на каком слое ломается страница.
Код: Выделить всё
GOOGLE - конвейер систем (реконструкция)
доступность/индекс -> релевантность -> quality -> демоушены -> поведение/гео/свежесть
roboted/crawled ABC: Anchors NSR Panda NavBoost
selectionTierRank Body, Clicks siteAuthority SpamBrain LSU/QDF
spam score topicality Q* / QScore exactMatch dem. local/visit-in-person
PageRank/budget сущности page+site lvl anchorMismatch
Код: Выделить всё
ЯНДЕКС - каскад + финальный rearrange
L0/L1 (отбор, дешёвые фичи)
-> L2 (MatrixNet/CatBoost, средняя формула)
-> L3 (тяжёлая нейро-формула на топе)
-> rearrange (~380 пост-правил: бусты, фильтры, диверсификация)
Score = NN( GBDT( wB*B + wT*T + wQ*Q + wH*H + wA*A ) )
B Поведение 30-40%
T Нейро-текст 25-35%
Q Качество 8-12%
H Хост 8-12%
A Ссылки 5-10%
Что общего: клики правят бал
Это самый громкий вывод обеих утечек. Поведение пользователя - доминирующий сигнал у обоих, просто названия разные.
Google - NavBoost и Glue. В дампе NavBoost упомянут 84 раза в шести моделях. Он хранит good clicks, bad clicks, long clicks (последний самый длинный клик), показы, тип устройства, географию, IP-fraud-скоры и voter-токены под отдельных пользователей. Память - 13 месяцев истории кликов по запросам. Это не агрегат на лету, это буквально гигантская таблица, которая помнит, как люди кликали по конкретным парам запрос-документ. Glue - это надстройка над NavBoost, которая тянет ещё и клики, ховеры, скроллы, свайпы по всем элементам выдачи, не только по синим ссылкам. На суде Pandu Nayak под присягой назвал NavBoost одним из важных сигналов, а во внутренней переписке Google звучала оценка, что NavBoost по кликовым и precision-метрикам мощнее всего остального ранжирования вместе взятого.
Яндекс - ПФ. Та же идея: B (поведение) - старший терм с долей 30-40%. Источники сигнала - логи выдачи, Метрика, Браузер. CTR, время на сайте, отказы, доскроллы, возвраты на SERP. И тоже своя память: dwell time, last-click логика, фолбэк на короткие сессии.
Код: Выделить всё
КЛИКИ - ядро у обоих
GOOGLE ЯНДЕКС
система NavBoost + Glue ПФ (терм B)
вес top-level, ранний 30-40%, старший терм
память 13 мес. giant-table логи + Метрика + Браузер
гранулярность good/bad/long clicks CTR/отказы/dwell/возвраты
антифрод IP-fraud, voter tokens антифрод-классификатор
Второе общее - смерть классических ссылок. У Яндекса это видно в открытую: LinkBM25 в одном из срезов даёт 0 из 9, классический PageRank лежит в TG_UNUSED, а AntiSeoResetFactors прямо обнуляет ссылочные факторы для коммерческих запросов по Москве. У Google ссылки живы формально (PageRank упомянут как поле, анкоры важны для релевантности), но вес сместился: на суде всплыли Q* и P* как два top-level сигнала, и ссылки в них - лишь одна из составляющих авторитета, а не главный драйвер. Эпоха закупки ссылочного как основной тактики закончилась у обоих, просто Яндекс сделал это резче и заметнее в коде.Сходство тут не косметическое. Оба поисковика по факту делегировали значительную часть ранжирования толпе: документ хорош настолько, насколько по нему хорошо кликают и на нём задерживаются. Текст и ссылки во многом стали способом попасть в отбор, а клики решают, кто из отобранных поднимется.
Третье общее - нейро-семантика и антиспам. У Яндекса терм T (нейро-текст) - это эмбеддинги и трансформеры, 25-35%. У Google релевантность тоже давно не про плотность ключей, а про сущности (entity), topicality и семантическое соответствие интенту. Антиспам параллелен: SpamBrain и Panda у Google, антифрод и пороговые фильтры у Яндекса (анкоры, CTR, плотность ключей имеют верхнюю границу, за которой уходят в минус).
Где расходятся
Код: Выделить всё
GOOGLE ЯНДЕКС
память кликов giant-table, 13 мес., логи + Метрика + Браузер,
по парам запрос-URL антифрод на накрутке
пост-обработка демоушены размазаны явный rearrange ~380 правил
по системам пайплайна поверх score
ссылочный сброс плавное обесценивание AntiSeoResetFactors - жёсткое
(link-spam, anchorMismatch) обнуление для коммерц+Москва
тиры документов Base / Zeppelins / Landfills каскад L0..L3 (по тяжести,
(по ценности, для serving) не по ценности)
отбор-ранг selectionTierRank, spam score selectionrank
дубли с хоста host-level quality, sitechunk host-collapsing ~2 URL/домен,
потолок 259 документов
доверие/эксперты E-E-A-T + QRG, асессоры нет явного аналога E-E-A-T;
оценивают экспертность больше про ПФ и хост
каноникализация canonical как сигнал слоя нулевой фактор (по утечке)
2. Пост-обработка. У Яндекса есть честный, перечислимый слой - rearrange, примерно 380 правил, которые двигают выдачу после расчёта score: бусты, фильтры, диверсификация, разнообразие хостов. У Google аналогичная работа распределена по системам (Panda, exactMatch demotion, anchorMismatch, link-spam-модели, scamness) и не собрана в один явный список.
3. Ссылочный сброс. AntiSeoResetFactors у Яндекса - это рубильник: для коммерции по Москве ссылочные факторы просто обнуляются. У Google нет такого бинарного жеста, есть постепенное обесценивание манипулятивных ссылок и демоушен за анкорный мисматч.
4. Тиры. Base / Zeppelins / Landfills у Google - это про ценность документа и serving-tier: где URL физически обслуживается и как часто участвует в отборе. SEO-специалист не видит напрямую, в каком тире лежит страница, можно судить только по косвенным симптомам (индексирование, частота обхода, показы по точным запросам). У Яндекса L0..L3 - это не про ценность, а про вычислительный бюджет: сколько кандидатов мы можем прогнать через всё более тяжёлую формулу.
5. Дубликаты с хоста. Тут разница тактическая. Яндекс жёстко коллапсит примерно до 2 URL с домена в выдаче и держит потолок около 259 документов на запрос. У Google host-clustering мягче и больше завязан на site-level quality и sitechunk.
6. E-E-A-T и асессоры. Вот это у Google действительно своё. Quality Rater Guidelines и армия асессоров оценивают экспертность, авторитетность, достоверность - и эти оценки идут в обучение моделей качества (NSR, siteAuthority, Q*). У Яндекса в утечке явного E-E-A-T-аналога не видно: качество там больше про поведение и хостовые сигналы, чем про репутацию авторов.
Что с этим делать на практике
Различия дают разные акценты. Под Google добавьте слой E-E-A-T: авторство, репутация, экспертность - это реально едет в качество. Под Яндекс - чистите дубли с хоста (он всё равно схлопнет вас до пары URL) и не рассчитывайте на ссылочное в коммерции по Москве, его обнулят. И там, и там перестаньте мерить успех закупленными ссылками: классический PageRank у Яндекса в unused, у Google ссылки - лишь часть Q*/P*.Сходство в ядре даёт общий вывод для обоих поисковиков: не накручивать клики (антифрод ловит и там, и там), а добиваться совпадения сниппета и страницы, удержания и осмысленного трафика. Манипуляция поведением на Google почти гарантированно ведёт к санкции, на Яндексе ловится тем же PF-фильтром, что и накрутка CTR.
И последнее, чтобы никого не вводить в заблуждение: ни Base/Zeppelins, ни доли термов Яндекса, ни 380 правил - это не то, что вам кто-то подтвердил официально. Это собранная по утечкам, суду и патентам модель. Полезная для аудита, но проверять эффект всё равно надо на когортах своих URL, а не на вере в чужую формулу.
Связанные разборы
- Все факторы Google (хаб): viewtopic.php?t=1857
- Формула ранжирования Яндекса: viewtopic.php?t=1828
- Робот Яндекса (индексация): viewtopic.php?t=1842
- Формирование выдачи Яндекса: viewtopic.php?t=1849