Тред про то, что реально известно про ссылочные сигналы Google по совокупности источников: утечка Content Warehouse (API leak, май 2024), показания и документы из антимонопольного процесса DOJ против Google, патенты и Quality Rater Guidelines. Сразу важная рамка.
Ссылки в этой реконструкции - это один из трёх классических сырых входов IR-блока, который в материалах суда фигурирует как ABC: Anchors (анкоры), Body (контент), Clicks (поведение). PageRank при этом описан как вход в общий Quality-скор (Q*), а анкорный текст лежит в документных структурах как самостоятельный сигнал. То есть никакого мифического "ссылочного веса вообще" - есть набор конкретных полей и механизмов.Это не официальная формула ранжирования. Это реконструкция по утечкам внутренней документации, материалам суда и патентам. Часть сигналов подтверждена прямо, часть только задокументирована в схемах данных (а наличие поля в индексе не равно его весу в финальном скоринге), часть остаётся спорной. Дальше я честно помечаю уровень подтверждения у каждого пункта.
Ядро: PageRank жив, но это не тот PageRank
PageRank как сигнал авторитета - подтверждён
Уровень подтверждения здесь самый высокий: официальное подтверждает неофициальное. PageRank описывается как "дистанция от известного хорошего источника" (known good source) по ссылочному графу и идёт прямым входом в Quality-скор. Источники сходятся: материалы суда DOJ (показания про Q* и ABC), патентная база и утечка, где поле pagerank лежит в PerDocData (правда, помечено как DEPRECATED). ID фактора - F-LINKS-001.
PagerankNS (NearestSeeds) - задокументирован
А вот это ключевая деталь, которую часто упускают. Реальное производственное значение PageRank считается методом NearestSeeds - через близость к набору доверенных seed-страниц, а не классической итеративной формулой 1998 года. В утечке поле PagerankNS прямо помечено как "тот PR, который должны использовать все команды", а старые pagerank и toolbarPagerank - устаревшие. ID - F-LINKS-044.
Анкоры (A) - подтверждёнПрактический вывод: ностальгия по Toolbar PageRank бессмысленна - его давно отключили, и внутри Google это вообще не он. Думайте не "сколько у меня ссылок", а "насколько мои доноры близки к доверенным узлам графа в моей нише". Одна редакционная ссылка с близкого к seed-узлам домена обычно ценнее десятков слабых размещений.
Анкорный текст входящих ссылок - первоклассный ранжирующий вход, хранится в CompositeDoc (поля anchors, anchorStats). ID - F-LINKS-036, F-LINKS-035. Анкоры работают не только на ранжирование, но и подмешиваются в title в выдаче (упоминается goldmine anchor factor, F-LINKS-023).
Не все ссылки равны: модель Reasonable Surfer
Это, наверное, самое практичное, что есть в патентной части. Reasonable Surfer - модифицированный PageRank, где каждая ссылка получает вес пропорционально прогнозируемой вероятности клика по ней. Грубо схема такая
Код: Выделить всё
r(A) = C/N + (1 - a) * SUM( w(Bi) * r(Bi) / l(Bi) )
где
r(A) - ранг целевой страницы A
w(Bi) - вес ссылки с донора Bi (вероятность клика)
l(Bi) - число исходящих ссылок на доноре
a - демпинг-фактор
w(Bi) растёт от: позиции в основном тексте, видимости,
тематической релевантности, кликабельности
w(Bi) падает у: ссылок в футере, сайдбаре, блоках "Полезное"
Сюда же тематика: каждой исходящей ссылке присваивается topicality_weight - тематическое соответствие пары источник-цель, которое модулирует передаваемый вес (F-LINKS-032, поле RepositoryWebrefWebrefOutlinkInfo.topicalityWeight).
Код: Выделить всё
ПРИОРИТЕТ ссылки при аудите/закупке (от лучшего)
1. incontent, тематический абзац, видимый анкор <- цель
2. incontent, но слабо релевантный контекст
3. блок "Источники" / "Читайте также"
4. сайдбар (шаблонный)
5. футер <- почти мусор
Анкоры классифицируются по корпусу источника - sourceType HIGH / MEDIUM / LOW (F-LINKS-009). Нюанс: числовое значение обратное, меньше число = более важный анкор (HIGH = base index, самые авторитетные страницы). Дополнительно вместе с анкором передаётся NSR (Normalized Site Rank) донора в диапазоне 0-1000 (F-LINKS-052, поле AnchorsAnchorSource.nsr) - это как бы второй слой к PageRank донора.
Отдельно считаются "лучшие анкоры": baseAnchorCount от доноров base-index и topPrOffdomainAnchorCount от доноров с порогом PR > 51000 (F-LINKS-017, F-LINKS-018).
Разнообразие и схлопывание анкоровГраница вывода: всё это задокументировано (есть поля в схеме), но НЕ подтверждено как весомый множитель в финальном скоринге. "Поле существует" не равно "поле сильно влияет". Поэтому относитесь к sourceType / NSR / top-PR как к разумным ориентирам качества донора, а не как к гарантированным рычагам.
Google хранит отдельно число уникальных анкорных фраз (с капом 5000) и число уникальных доменов-источников (F-LINKS-019, F-LINKS-058). Монотонный коммерческий профиль - подозрителен. Плюс механизм WebRef collapse: анкоры с одинаковым текстом схлопываются в один нормализованный score (отдельно для off-domain), а не суммируются (F-LINKS-020, поля normalizedScore, normalizedScoreFromOffdomain).
Код: Выделить всё
Закупка 200 ссылок с анкором "купить кухню Москва"
наивно ждём: +200 сигналов
реально: ~1 схлопнутый нормализованный score
+ рост anchor spam probability
+ падение разнообразия профиля
итог: бюджет потрачен, сигнал почти не вырос
Importance rank (примерно PageRank) используется для планирования частоты обхода: важные страницы краулятся чаще, для каждого уровня ранга задан максимальный период между обходами (F-LINKS-038, PATENT6). И жёстче: когда краулер отстаёт от расписания, очередь сортируется по PR и нижние 20% URL отбрасываются (F-LINKS-039). Практический смысл - внутренняя перелинковка на приоритетные страницы реально ускоряет их переиндексацию, а сироты на крупных сайтах рискуют не докраулиться вовремя.
Антиспам: вот тут стало злее
Самая важная новость последних лет - ссылочный спам теперь не просто "игнорируется", а активно подавляет сигналы. По полям из утечки
Код: Выделить всё
F-LINKS-045 penguinPenalty page-level флаг Penguin (0/1) + timestamp
F-LINKS-046 penguinEarlyAnchor ранние качественные анкоры = "кредит доверия"
F-LINKS-047 badbacklinksPenalized подавляет improvanchor score в Mustang ascorer
F-LINKS-041 anchorMismatchDemotion штраф за несоответствие анкора и контента
F-LINKS-056 expired (anchor) источник - истёкший домен (PBN-детектор)
F-LINKS-057 pageFromExpiredAnchors агрегат на странице-получателе
F-LINKS-048/049/050 spamProbability + spamPenalty + spamLog10Odds (градуированно)
Это бьётся с публичной хроникой апдейтов. SpamBrain - AI-движок Google против спама, на ссылках развёрнут с декабря 2022. Июньский Link Spam Update 2024 и декабрьский Spam Update 2024 (раскатан 19 декабря 2024, около недели) продолжили линию: SpamBrain нейтрализует манипулятивные ссылки (платные, PBN, биржи, автоматические). И ключевое предупреждение самого Google - когда апдейт убирает эффект спамных ссылок, теряется и тот буст, который они когда-то давали; "починить" задним числом обычно нечем.
И всё-таки: ссылки стали менее важными
Честная контр-рамка к лидген-нарративу "купи ссылок и взлетишь". Gary Illyes (Google) ещё на PubCon говорил, что ссылки не входят в топ-3 факторов и что "люди переоценивают важность ссылок". Позже - "нам нужно очень мало ссылок, чтобы ранжировать страницы" и "за годы мы сделали ссылки менее важными". В марте 2024, синхронно с Core Update, Google убрал слово "important" из формулировки про ссылки в spam-документации. Причина в том же направлении: BERT, MUM и NLU-сигналы релевантности забрали часть веса.
Сухой остаток для практики: стройте профиль из тематически близких, регулярно краулящихся доноров с трафиком; ссылку - в основной текст, не в футер; анкоры - разнообразные и честно описывающие страницу (иначе anchor mismatch demotion); на старте сначала несколько органических редакционных ссылок (early-anchor protection), потом продвижение; PBN на expired-доменах и явный спам - в точечный Disavow; не ждите от ссылок чуда там, где проседает контент.Что доказано: PageRank (NearestSeeds) жив и входит в Quality; анкорный текст - первоклассный сигнал; позиция и кликабельность ссылки реально учитываются (Reasonable Surfer); антиспам стал градуированным и page-level, а плохие ссылки могут вредить, а не просто игнорироваться.
Что спорно / только задокументировано: конкретные веса sourceType, NSR, top-PR порогов - поля есть, вес неизвестен. Наличие поля в индексе НЕ доказывает его значимость в финальном скоринге.
Чего нельзя обещать: что закупка ссылок даст рост. Ссылки - усиливающий, а не главный фактор; без релевантного контента и нормального поведенческого профиля они не вытянут.