Google: контент и релевантность - что реально оценивается

anna_seo · Сообщение **anna_seo** » 13 июн 2026, 15:55

Google: контент и релевантность - что реально оценивается

Дисклеймер сразу, чтобы потом не было вопросов. Всё ниже - это реконструкция по утечке внутренней документации Content Warehouse (май 2024), показаниям и материалам суда DOJ против Google, патентам и Quality Rater Guidelines. Это не официальная формула ранжирования, Google такую не публикует. Часть сигналов подтверждена прямо, часть только задокументирована в утёкших протобуферах (то есть поле существует, но как именно оно весит в финальном скоре - спорно). Я буду отмечать уровень доверия по каждому пункту: подтверждён / документирован / спорно.

Тред про первый слой - контент и релевантность. Без него остальные слои (ссылки, поведение, авторитет) интерпретировать не во что.

Архитектура: куда вообще встраивается контент

Из судебных и патентных материалов вырисовывается верхнеуровневая агрегация сигналов в три бакета. Удобно держать их в голове как карту.

Код: Выделить всё

БАКЕТ          ЧТО ЭТО                       КОНТЕНТ ВЛИЯЕТ
-----------    --------------------------    ----------------------
ABC / T*       релевантность, топикалити     прямо (тело, термины)
Navboost       клики, поведение в выдаче      косвенно (через сниппет,
                                              привлекательность ответа)
Quality / Q*   качество URL и сайта (NSR)     прямо (effort, NSR-модели,
                                              спам-штрафы)

Практическое правило, которое из этого следует: текст не "важнее всего". Сначала страница должна понятно закрыть запрос (ABC), и только потом имеет смысл вкладываться в ссылки, сниппет и поведенческие сигналы. Сильный текст при дохлом сниппете и слабом качестве сайта упирается в потолок. (F-CONTENT-051, источники PATENT1, COURT, статус: подтверждён)

ABC Topicality (T*) - ядро релевантности

Классический IR-сигнал. T* собирает три компонента в единый скор по запросу: A - анкоры входящих ссылок, B - термины в теле страницы, C - клики. Статус: документирован (PATENT1, ID F-CONTENT-049/050). База старого доброго информационного поиска никуда не делась. Чек-лист простой

Код: Выделить всё

A (anchors)  тематические анкоры входящих ссылок
B (body)     ключевые термины запроса в теле, особенно
             высоко-IDF (редкие, различающие) слова
C (clicks)   страница реально получает клики по целевым запросам

Если один компонент проседает - это подсказка, где именно теряется релевантность: в тексте, в анкорах или в реакции людей.

Семантика победила точное вхождение

RankEmbed / RankEmbedBERT - топ-уровневый deep-learning сигнал с BERT-пониманием языка. Статус: подтверждён (COURT, p.40/137/138/157). Это не теория из утечки - Панду Найак, вице-президент Google по поиску, прямо называл его в суде DOJ среди ключевых систем глубокого обучения наряду с RankBrain и DeepRank. По показаниям RankEmbedBERT особенно важен для длинного хвоста запросов и достигал высокого качества на меньшем объёме обучающих данных. Лежит в основе FastSearch.

Вывод для практика: семантическое соответствие бьёт точное вхождение ключа. Раскрывайте тему в полном объёме, а не набивайте одно и то же слово.

Код: Выделить всё

ПЛОХО:  "купить ноутбук дешево купить ноутбук недорого
         купить ноутбук Москва"
ХОРОШО: естественный текст, который закрывает интент
         "лучший ноутбук для учёбы до 50 000" - с разбором
         моделей, автономности, веса, портов

Salient Terms Set - тематическая концентрация

Набор "выдающихся" терминов страницы (из тела, анкоров, кликов). Поле headVolumeRatio - концентрация топ-K терминов: выше = тема фокуснее. Питает выбор тайтла, сниппета, тематизацию. Статус: документирован (LEAK, QualitySalientTermsDocData). Простой тест: выпишите 5 главных слов страницы - они должны явно принадлежать одной теме. Если разброс - страница размыта, классификатору тяжелее.

Качество контента: модели и штрафы

Здесь самое интересное из утечки, и здесь же больше всего спорного - потому что это поля протобуферов, а не подтверждённые веса.

Content Effort (LLM-based) - LLM-оценка вложенных усилий, поле QualityNsrPQData.contentEffort. Статус: документирован (LEAK, ID F-CONTENT-001). По консенсусу SEO-сообщества это вероятный технический движок Helpful Content System: алгоритмическая оценка человеческого труда, оригинальности и ресурсов, вложенных в материал. Используйте как редакционный тест, не как буквальную формулу

Мог бы стандартный генератор быстро выдать такой же текст без доступа к вашим данным и опыту? Если да - effort низкий. Признаки высокого: оригинальные данные, экспертный анализ, конкретные примеры, выстроенная аргументация. Шаблонные "10 советов" без глубины - зона риска.

Chard / Tofu / Keto / Rhubarb - четыре независимые NSR-модели качества на уровне URL и сайта. Rhubarb - дельта "страница против среднего по сайту": страницы выше своего сайта получают доп. усиление. Статус: документирован (LEAK, F-CONTENT-096/097/098/099). Оптимизировать "один скор" бессмысленно, четыре модели смотрят с разных сторон. Цель проще: каждая новая страница не ниже медианы вашего сайта, а важные посадочные - заметно выше.

Код: Выделить всё

МОДЕЛЬ    УРОВЕНЬ        СУТЬ (по утечке)
-------   ------------   ------------------------------
Chard     URL / site     базовая оценка качества
Tofu      URL / site     независимый угол
Keto      URL / site     независимый угол
Rhubarb   page vs site   дельта: страница лучше сайта = буст

Panda / BabyPanda v2 - site-level понижение из SiteQualityFeatures за тонкий, дублирующий, массовый низкокачественный контент. BabyPanda v2 ложится поверх и усиливает. Статус: документирован (LEAK, F-CONTENT-059/060). Это сигнал на массиве страниц, не на одной статье. Аудит: выгрузите URL с тонким/шаблонным контентом и по каждому решите - удалить, объединить, перенаправить или полноценно доработать. Частичные правки ради объёма проблему массива не решают.

Racter AGC Score - site-level классификатор автогенерированного / AI-контента (поле QualityNsrNsrData.racterScores). Высокий скор = сайт преимущественно AGC, что роняет весь NSR. Статус: документирован (LEAK, F-CONTENT-093).

Риск не от факта использования AI, а от большой доли автогенерации без редакционной ценности. AI как черновик с существенной человеческой редактурой, добавлением опыта и уникальных данных - допустимо. Сотни статей publish-as-is - сигнал на уровне сайта.

Keyword Stuffing Score / Gibberish Score - два 7-битных скора (0-127): переспам и тарабарщина. Прямые негативные сигналы в PerDocData. Статус: документирован (LEAK, F-CONTENT-086/087). Stuffing ловится даже в скрытом тексте и мета-тегах. Тест - прочитайте вслух: если режет ухо из-за повторов, это переспам.

Тайтл, сниппет, монотема

Bad Title Flag и Goldmine. DocProperties.badTitle - флаг бессмысленного/отсутствующего тайтла. Goldmine генерирует альтернативные заголовки и скорит через Blockbert: если ваш title слабый, Google покажет в выдаче свой вариант. Статус: документирован (LEAK, F-CONTENT-006/007/008). Три правила: тайтл отражает тело и salient-термины, написан на языке контента, содержит ключевые термины запроса без спама. Проверка: совпадает ли заголовок в SERP с вашим title? Рассинхрон - значит систему ваш не устроил.

Snippet Boosts + Leading Text. Шанс фрагмента попасть в сниппет повышают schemaOrgDescriptionBoostScore, metaBoostScore, salientTermsScore и salientPositionBoostScore (ближе к началу = буст). Отдельно leadingtext-detector - вводный абзац приоритетный кандидат. Статус: документирован (LEAK, F-CONTENT-012/100). Вывод: прямой ответ на запрос - в первый абзац. Осмысленный schema.org/description, соответствующий содержанию. Meta description на языке страницы, не набор ключей.

Single-Topicness Score - скор [0,1], насколько страница про одну тему/сущность. Высокое значение делает её кандидатом на reference-страницу сущности в Knowledge Graph. Статус: документирован (LEAK, RepositoryWebrefReferencePageScores.singleTopicness). Принцип "одна страница - одна основная тема". Тест: уберите заголовок - можно ли понять тему по первым двум абзацам?

YMYL Health / News - два ML-классификатора (ymylHealthScore, ymylNewsScore) автоматически метят медицинские и чувствительные новостные темы и включают строгий стандарт E-E-A-T. Статус: документирован (LEAK, F-CONTENT-091/092). Для health минимум: автор с указанными credentials, дата обновления, ссылки на авторитетные источники.

Onsite Prominence - 13-битный скор важности документа внутри сайта (симуляция трафика от главной и страниц с высокими CRAPS-кликами). Аналог PageRank, но внутри домена. Статус: документирован (LEAK, F-CONTENT-089). Важные посадочные должны быть достижимы из главной и популярных разделов; правило 2-3 кликов - удобная эвристика, не документированный порог Google.

Clutter Score - дельта-штраф в Q* за агрессивную рекламу, попапы, избыток трекеров. Site-level. Статус: документирован (LEAK, QualityNsrNsrData.clutterScore). Проверка: откройте страницу с блокировщиком - если исчезает половина первого экрана, есть риск.

Что подтвердили апдейты 2024-2026

Свежий контекст, который ложится ровно на утечку

Код: Выделить всё

Mar 2024 Core   HCS вмёржен в ядро; крупнейший апдейт,
                раскатка 45 дней, выбито ~40% слабого контента
Dec 2024 Core   усиленный акцент на топикалити и интенте
Jun 2025 Core   "AI-ранжирование != AI-генерация"; выигрывают
                сайты с экспертизой и оригинальными инсайтами
Dec 2025 Core   первый апдейт, прямо целящий в подлинность
                AI-контента; ловит неотредактированную генерацию

Консенсус сообщества на 2025-2026: глубина бьёт ширину, доказательства бьют обещания, фокус бьёт масштаб. Сайты, которые отыгрывают позиции, сходятся в трёх вещах - выросшая топикальная авторитетность, чище архитектура контента, сильнее сигналы экспертизы. Это практически дословный перевод связки contentEffort + single-topicness + NSR на человеческий язык.

Чего избегать

Код: Выделить всё

- Panda-ловушка масштаба: массовые тонкие листинги (теги,
  города, шаблоны) ради охвата = site-level риск
- AI publish-as-is: Racter ловит сайты с доминирующей
  автогенерацией; один-два редактированных черновика - норм
- Переспам и рассинхрон тайтла: 7-битный stuffing-скор +
  отдельный bad-title флаг = прямой негатив качества
- Смешение тем и языков на одном URL: размывает таргетинг,
  роняет single-topicness, путает классификатор

Граница вывода. Существование полей (contentEffort, racterScores, chard/tofu/keto/rhubarb, clutterScore и т.д.) подтверждено утечкой - это факт. Архитектура ABC/Navboost/Quality и системы RankEmbedBERT/Navboost подтверждены показаниями DOJ - тоже факт. А вот точные веса, пороги и то, как именно эти скоры комбинируются в финале - НЕ подтверждены. Никто не может обещать "поднимите contentEffort и вырастете на N позиций". Это карта местности, а не GPS с точными координатами. Используйте как чек-лист приоритетов, а не как формулу.

Google: контент и релевантность - что реально оценивается

Google: контент и релевантность - что реально оценивается

Кто сейчас на конференции