Факторы ранжирования Google: доказательная карта (утечка, суд, патенты)

Рейтинг: 0% · 0 голосов
Разбор устройства поиска и факторов ранжирования: реконструкция формулы, поведенческие, текстовые, ссылочные и хостовые факторы, антиспам, что живо и что давно мёртво. Аналитика на основе метаданных факторов web_production.
Ответить
Аватара пользователя
anna_seo
Сообщения: 58
Зарегистрирован: 11 май 2026, 05:31

Факторы ранжирования Google: доказательная карта (утечка, суд, патенты)

Сообщение anna_seo »

Зачем эта карта и чем она не является

Это хаб Google-кластера. Дальше будет цепочка систем, по которым удобно разбирать любую страницу, и расшифровка того, на каких доказательствах это держится. Сразу фиксирую рамку, чтобы не было иллюзий.
Это реконструкция по утечке Content Warehouse (май 2024), материалам суда DOJ против Google, патентам и Quality Rater Guidelines. Это не официальная формула ранжирования и не production-конфигурация. Часть сигналов спорна, веса нигде не раскрыты, а порядок ниже - структурная модель для аудита, а не уравнение с коэффициентами.
Главная мысль: думать про единую формулу Google вредно. Полезнее видеть конвейер. Одни сигналы решают, попадёт ли документ в индекс и будет ли вообще участвовать в отборе. Другие оценивают релевантность запросу. Третьи корректируют качество, свежесть, локальность и спам-риск. Карта нужна, чтобы понять, на каком уровне ломается страница, а не чтобы пообещать рост после одной правки.

Откуда берутся доказательства: четыре слоя источников

В реестре каждая карточка фактора имеет ID вида F-... и привязку к типу источника. Типов четыре.

Код: Выделить всё

КОД   ЧТО ЭТО                          ДОКАЗАТЕЛЬНЫЙ ВЕС
----  -------------------------------  ----------------------------------
GP    Утечка Content Warehouse (LEAK)  есть поле/механизм в API-докум.
      ~2500 модулей, тысячи атрибутов  факт поля != вес фактора
COURT Суд DOJ против Google            показания под присягой,
      (антимонопольный процесс)        внутренние слайды, решение судьи
PATENT Патенты Google                  описывает возможную механику,
      (+ слой GPATENT, 404 карточки)   не доказывает текущую реализацию
QRG   Quality Rater Guidelines         что Google считает качеством;
      (инструкция асессорам)           это не алгоритм, а целевая рамка
Сила вывода зависит не от того, насколько идея популярна в SEO, а от того, сколькими независимыми типами она подтверждена. Поэтому в реестре отдельная матрица фактор x тип источника x статус.

Уровни подтверждения

В матрице 603 канонические строки. Распределение по статусам такое

Код: Выделить всё

СТАТУС                          ШТУК   КАК ЧИТАТЬ
------------------------------  ----   --------------------------------------
official-confirms-unofficial      66   офиц. слой подтверждает механизм
                                       из утечки или суда (самый ценный класс)
cross-type-corroborated           17   несколько РАЗНЫХ типов источников
single-type-corroborated           4   повтор внутри одного типа (все - click)
documented                       514   один источниковый слой
disputed                           2   зона расхождения / неполного
                                       судебного подтверждения
Спорными остаются ровно две карточки - F-SPAM-046 и F-CLICKS-031. Это не миф и не доказанный факт: источники показывают сильные признаки, но степень или публичная трактовка неоднозначна. Сглаживать это не нужно.
documented - это не слабый фактор, а слабее доказательство. Поле из утечки может быть критически важным, но сам факт поля не раскрывает вес. Патент может детально описывать механику, но не доказывает, что она включена в проде. QRG может быть очень полезен, но это не уравнение.
Конвейер ранжирования: шесть слоёв

Ниже - порядок вопросов для аудита. Сначала проверяем, участвует ли документ в отборе вообще, и только в конце трогаем тонкие корректировки.

Код: Выделить всё

видимость URL ~ доступность/индекс
              -> релевантность (ABC: anchors, body, clicks)
              -> quality (Q* / NSR / siteAuthority)
              -> демоушены и фильтры риска
              -> пользовательские сигналы / NavBoost
              -> свежесть / локальность / финал
1. Доступность и индексный слой

В карточках зафиксированы поля про роботов, результат фетча, serving-tier, PageRank, crawl budget и спам-скоринг: selectionTierRank, признаки ROBOTED / CRAWLED / ERROR. Судебные материалы связывают spam score с индексированием и краулингом. Из утечки также прослеживается архитектура хранилища с разными уровнями (условно Base / тиры пониже / отстойник мусорных URL). [F-AUTHORITY-019], [F-TECH-011], [F-TECH-015], [F-SPAM-016], [F-LINKS-038]
Граница вывода: вы не видите напрямую, в каком тире лежит URL. Поэтому нельзя обещать перевод в основной индекс. Можно проверять косвенные симптомы: индексирование, частоту переобхода, показы по точным и низкочастотным запросам.
Аудит начинается с базовой гигиены: страница доступна Googlebot, не закрыта robots/noindex/canonical, отдаёт корректный статус, получает внутренние ссылки и переобход, не выглядит тонкой заготовкой.

2. Релевантность: ABC (anchors, body, clicks)

Судебные инженеры Google прямо описывали верхнеуровневую разбивку ABC - anchors, body, clicks - как базовые сигналы релевантности, поверх которых работает машинное обучение. Здесь же живёт topicality. Анкоры (входящие и внутренние), текст документа и семантическое соответствие интенту. [F-CONTENT-051], [F-CONTENT-049], [F-LINKS-036], [F-ENTITY-002]

Важная деталь из суда: классический BM25 давно дополнен ML-слоем. RankBrain (с 2016), затем DeepRank (BERT-подобная модель, переоценивает топ кандидатов и фактически решает, кто попадёт в позиции 1-3) и RankEmbed. Любопытно, что инженеры отмечали: сигналы DeepRank удавалось разложить на компоненты, похожие на традиционные сигналы, и совмещение обоих типов улучшало выдачу.
Граница вывода: источники не дают формулы сколько анкоров, текста или сущностей нужно. Это зона сравнительного анализа SERP и тестов по группам страниц, а не нормативов.
3. Quality: Q* / NSR / siteAuthority

В корпусе есть NSR, siteAuthority, QScore / Q*, модели page-level и site-level качества. Часть качества считается не на уровне страницы, а на уровне sitechunk / host. [F-AUTHORITY-001], [F-AUTHORITY-013], [F-AUTHORITY-038], [F-AUTHORITY-048], [F-HOST-006]

Два сильных подтверждения из 2024-2025. Первое: поле siteAuthority в утечке - это та самая доменная авторитетность, существование которой Google публично отрицал годами. Это не калька с Moz DA, но механизм похож: сайт-уровневый сигнал качества влияет на потенциал всех страниц домена. Второе: на суде инженеры называли общий Q* (трактовка надёжности/trustworthiness) incredibly important и отдельным инженерным фокусом против роста низкокачественного контента.
Граница вывода: точный вклад siteAuthority или NSR для конкретного домена не выводится. Практический вывод не доменный авторитет важнее всего, а качество сайта влияет на стартовые условия и устойчивость страниц.
В аудите смотрим не только целевую страницу, но и соседние разделы: тонкие шаблоны, авторство, репутационные признаки, качество ссылочного, избыток мусорных URL.

4. Демоушены и фильтры риска

Отдельный слой - не что добавить, а что убрать. Карточки фиксируют Panda / BabyPanda, SpamBrain, exactMatch demotion, anchorMismatch, link-spam модели, scamness. Panda по описанию из утечки - это скоринговый модификатор на основе поведения пользователей и внешних ссылок, применяемый на разных уровнях (домен, поддомен, подкаталог). [F-CONTENT-059], [F-SPAM-014], [F-LINKS-041], [F-LINKS-045], [F-SPAM-050]

Сюда же ложатся Twiddlers - функции пере-ранжирования поверх первичного скоринга. Их десятки, каждый оптимизирует свой сигнал; через них на практике и навешиваются буст/демоушн.
Граница вывода: наличие риска не равно автоматической санкции. Корректнее говорить о паттернах, которые стоит снижать, и проверять эффект на когортах URL.
5. Пользовательские сигналы и NavBoost

Здесь связка суда и утечки максимально плотная. На процессе DOJ вице-президент Google по поиску Панду Наяк под присягой подтвердил, что NavBoost использует клики для пере-ранжирования, и назвал его одной из важнейших систем. NavBoost работает на скользящем окне примерно 13 месяцев агрегированных кликов. В утечке нашлись соответствующие поля: good/bad clicks, lastLongestClick, нормализованный click score, антифрод-признаки. Рядом - QBST и Glue (агрегация пользовательского поведения для блочной/универсальной выдачи). [F-CLICKS-001], [F-CLICKS-004], [F-CLICKS-013], [F-CLICKS-021], [F-CLICKS-025]
Граница вывода: нельзя утверждать, что отдельный клик меняет ранг. Источники говорят про агрегированные сигналы, сглаживание, антифрод и переобучение моделей. Накрутка кликов - это про антифрод, а не про рост.
Практический фокус: совпадение сниппета и страницы, удержание, понятная структура ответа, релевантный трафик. Проверяется через CTR, поведение после перехода, брендовый спрос, качество посадочных.

6. Свежесть, локальность и финал

Свежесть описана через LSU, даты, QDF / time-sensitive контекст; локальность - через страну, язык, гео-контекст, metro-сигналы и QRG-оценку visit-in-person интента. [F-FRESHNESS-001], [F-FRESHNESS-023], [F-FRESHNESS-042], [F-LOCAL-010], [F-LOCAL-015]
Граница вывода: свежесть и гео не универсальные бусты. Они работают там, где запрос требует свежего или локального результата. Обновляйте основной контент, а не дату.
Сильные связки: с чего начинать приоритизацию

Самый полезный класс - official-confirms-unofficial. Он не даёт веса, но снижает риск строить вывод на одном типе данных. Примеры, где сходятся несколько источников

Код: Выделить всё

ID              МЕХАНИЗМ                       ИСТОЧНИКИ
--------------  -----------------------------  --------------------
F-LINKS-001     PageRank как core link signal  LEAK + COURT + PATENT
F-CONTENT-001   Content Effort                 LEAK + GPATENT
F-RATER-007     YMYL: повышенный стандарт      LEAK + QRG + GPATENT
F-ENTITY-009    Knowledge Graph / интерпретац. COURT + PATENT
F-TECH-011      robots.txt / ROBOTED gate      LEAK + PATENT
F-LOCAL-010     локация меняет локальную выдачу COURT + QRG
Из патентного слоя GPATENT первично проверены лишь 11 карточек (primary_verified). Среди них механизмы, которых не хватало базовой библиотеке: information gain / topical depth (F-CONTENT-GP-017), novelty score (F-FRESHNESS-GP-012), zero-day ranking (F-CONTENT-GP-029), implicit links и Web Quotes (упоминания бренда без ссылки, F-LINKS-GP-006/007), session dissatisfaction (F-CLICKS-GP-008). Остальные 374 вторичны - это разведка, а не доказательство.

Что из этого подтверждают апдейты 2024-2026

Вектор последних core-апдейтов совпадает с картой: вес уходит к information gain, E-E-A-T и тематической авторитетности; тонкий массовый AI-контент проседает; first-hand experience и оригинальные данные ценятся выше. С приходом AI Overviews добавился слой отбора в цитирование - туда чаще попадают страницы с сильными E-E-A-T-сигналами и плотной сущностной разметкой. Это не новые факторы поверх схемы, а смещение приоритетов внутри тех же слоёв quality и релевантности.
Финальная граница вывода: 603 фактора - это карта механизмов, а не рецепт. Кросс-подтверждение повышает доверие к существованию сигнала, но без данных вашего сайта (GSC, логи, SERP, конверсии) любая карточка остаётся приоритетной гипотезой, а не доказанной причинностью. Меняйте одно на ограниченной группе URL, фиксируйте дату и контрольную группу, отделяйте эффект от сезонности и апдейтов.
Разборы по темам Сравнение с Яндексом: viewtopic.php?t=1870
Карта всего раздела: viewtopic.php?t=1856
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «SEO и факторы ранжирования»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей