Дисклеймер сразу, чтобы потом не было вопросов. Всё ниже - это реконструкция по утечке внутренней документации Content Warehouse (май 2024), показаниям и материалам суда DOJ против Google, патентам и Quality Rater Guidelines. Это не официальная формула ранжирования, Google такую не публикует. Часть сигналов подтверждена прямо, часть только задокументирована в утёкших протобуферах (то есть поле существует, но как именно оно весит в финальном скоре - спорно). Я буду отмечать уровень доверия по каждому пункту: подтверждён / документирован / спорно.
Тред про первый слой - контент и релевантность. Без него остальные слои (ссылки, поведение, авторитет) интерпретировать не во что.
Архитектура: куда вообще встраивается контент
Из судебных и патентных материалов вырисовывается верхнеуровневая агрегация сигналов в три бакета. Удобно держать их в голове как карту.
Код: Выделить всё
БАКЕТ ЧТО ЭТО КОНТЕНТ ВЛИЯЕТ
----------- -------------------------- ----------------------
ABC / T* релевантность, топикалити прямо (тело, термины)
Navboost клики, поведение в выдаче косвенно (через сниппет,
привлекательность ответа)
Quality / Q* качество URL и сайта (NSR) прямо (effort, NSR-модели,
спам-штрафы)
ABC Topicality (T*) - ядро релевантностиПрактическое правило, которое из этого следует: текст не "важнее всего". Сначала страница должна понятно закрыть запрос (ABC), и только потом имеет смысл вкладываться в ссылки, сниппет и поведенческие сигналы. Сильный текст при дохлом сниппете и слабом качестве сайта упирается в потолок. (F-CONTENT-051, источники PATENT1, COURT, статус: подтверждён)
Классический IR-сигнал. T* собирает три компонента в единый скор по запросу: A - анкоры входящих ссылок, B - термины в теле страницы, C - клики. Статус: документирован (PATENT1, ID F-CONTENT-049/050). База старого доброго информационного поиска никуда не делась. Чек-лист простой
Код: Выделить всё
A (anchors) тематические анкоры входящих ссылок
B (body) ключевые термины запроса в теле, особенно
высоко-IDF (редкие, различающие) слова
C (clicks) страница реально получает клики по целевым запросам
Семантика победила точное вхождение
RankEmbed / RankEmbedBERT - топ-уровневый deep-learning сигнал с BERT-пониманием языка. Статус: подтверждён (COURT, p.40/137/138/157). Это не теория из утечки - Панду Найак, вице-президент Google по поиску, прямо называл его в суде DOJ среди ключевых систем глубокого обучения наряду с RankBrain и DeepRank. По показаниям RankEmbedBERT особенно важен для длинного хвоста запросов и достигал высокого качества на меньшем объёме обучающих данных. Лежит в основе FastSearch.
Вывод для практика: семантическое соответствие бьёт точное вхождение ключа. Раскрывайте тему в полном объёме, а не набивайте одно и то же слово.
Код: Выделить всё
ПЛОХО: "купить ноутбук дешево купить ноутбук недорого
купить ноутбук Москва"
ХОРОШО: естественный текст, который закрывает интент
"лучший ноутбук для учёбы до 50 000" - с разбором
моделей, автономности, веса, портов
Набор "выдающихся" терминов страницы (из тела, анкоров, кликов). Поле headVolumeRatio - концентрация топ-K терминов: выше = тема фокуснее. Питает выбор тайтла, сниппета, тематизацию. Статус: документирован (LEAK, QualitySalientTermsDocData). Простой тест: выпишите 5 главных слов страницы - они должны явно принадлежать одной теме. Если разброс - страница размыта, классификатору тяжелее.
Качество контента: модели и штрафы
Здесь самое интересное из утечки, и здесь же больше всего спорного - потому что это поля протобуферов, а не подтверждённые веса.
Content Effort (LLM-based) - LLM-оценка вложенных усилий, поле QualityNsrPQData.contentEffort. Статус: документирован (LEAK, ID F-CONTENT-001). По консенсусу SEO-сообщества это вероятный технический движок Helpful Content System: алгоритмическая оценка человеческого труда, оригинальности и ресурсов, вложенных в материал. Используйте как редакционный тест, не как буквальную формулу
Chard / Tofu / Keto / Rhubarb - четыре независимые NSR-модели качества на уровне URL и сайта. Rhubarb - дельта "страница против среднего по сайту": страницы выше своего сайта получают доп. усиление. Статус: документирован (LEAK, F-CONTENT-096/097/098/099). Оптимизировать "один скор" бессмысленно, четыре модели смотрят с разных сторон. Цель проще: каждая новая страница не ниже медианы вашего сайта, а важные посадочные - заметно выше.Мог бы стандартный генератор быстро выдать такой же текст без доступа к вашим данным и опыту? Если да - effort низкий. Признаки высокого: оригинальные данные, экспертный анализ, конкретные примеры, выстроенная аргументация. Шаблонные "10 советов" без глубины - зона риска.
Код: Выделить всё
МОДЕЛЬ УРОВЕНЬ СУТЬ (по утечке)
------- ------------ ------------------------------
Chard URL / site базовая оценка качества
Tofu URL / site независимый угол
Keto URL / site независимый угол
Rhubarb page vs site дельта: страница лучше сайта = буст
Racter AGC Score - site-level классификатор автогенерированного / AI-контента (поле QualityNsrNsrData.racterScores). Высокий скор = сайт преимущественно AGC, что роняет весь NSR. Статус: документирован (LEAK, F-CONTENT-093).
Keyword Stuffing Score / Gibberish Score - два 7-битных скора (0-127): переспам и тарабарщина. Прямые негативные сигналы в PerDocData. Статус: документирован (LEAK, F-CONTENT-086/087). Stuffing ловится даже в скрытом тексте и мета-тегах. Тест - прочитайте вслух: если режет ухо из-за повторов, это переспам.Риск не от факта использования AI, а от большой доли автогенерации без редакционной ценности. AI как черновик с существенной человеческой редактурой, добавлением опыта и уникальных данных - допустимо. Сотни статей publish-as-is - сигнал на уровне сайта.
Тайтл, сниппет, монотема
Bad Title Flag и Goldmine. DocProperties.badTitle - флаг бессмысленного/отсутствующего тайтла. Goldmine генерирует альтернативные заголовки и скорит через Blockbert: если ваш title слабый, Google покажет в выдаче свой вариант. Статус: документирован (LEAK, F-CONTENT-006/007/008). Три правила: тайтл отражает тело и salient-термины, написан на языке контента, содержит ключевые термины запроса без спама. Проверка: совпадает ли заголовок в SERP с вашим title? Рассинхрон - значит систему ваш не устроил.
Snippet Boosts + Leading Text. Шанс фрагмента попасть в сниппет повышают schemaOrgDescriptionBoostScore, metaBoostScore, salientTermsScore и salientPositionBoostScore (ближе к началу = буст). Отдельно leadingtext-detector - вводный абзац приоритетный кандидат. Статус: документирован (LEAK, F-CONTENT-012/100). Вывод: прямой ответ на запрос - в первый абзац. Осмысленный schema.org/description, соответствующий содержанию. Meta description на языке страницы, не набор ключей.
Single-Topicness Score - скор [0,1], насколько страница про одну тему/сущность. Высокое значение делает её кандидатом на reference-страницу сущности в Knowledge Graph. Статус: документирован (LEAK, RepositoryWebrefReferencePageScores.singleTopicness). Принцип "одна страница - одна основная тема". Тест: уберите заголовок - можно ли понять тему по первым двум абзацам?
YMYL Health / News - два ML-классификатора (ymylHealthScore, ymylNewsScore) автоматически метят медицинские и чувствительные новостные темы и включают строгий стандарт E-E-A-T. Статус: документирован (LEAK, F-CONTENT-091/092). Для health минимум: автор с указанными credentials, дата обновления, ссылки на авторитетные источники.
Onsite Prominence - 13-битный скор важности документа внутри сайта (симуляция трафика от главной и страниц с высокими CRAPS-кликами). Аналог PageRank, но внутри домена. Статус: документирован (LEAK, F-CONTENT-089). Важные посадочные должны быть достижимы из главной и популярных разделов; правило 2-3 кликов - удобная эвристика, не документированный порог Google.
Clutter Score - дельта-штраф в Q* за агрессивную рекламу, попапы, избыток трекеров. Site-level. Статус: документирован (LEAK, QualityNsrNsrData.clutterScore). Проверка: откройте страницу с блокировщиком - если исчезает половина первого экрана, есть риск.
Что подтвердили апдейты 2024-2026
Свежий контекст, который ложится ровно на утечку
Код: Выделить всё
Mar 2024 Core HCS вмёржен в ядро; крупнейший апдейт,
раскатка 45 дней, выбито ~40% слабого контента
Dec 2024 Core усиленный акцент на топикалити и интенте
Jun 2025 Core "AI-ранжирование != AI-генерация"; выигрывают
сайты с экспертизой и оригинальными инсайтами
Dec 2025 Core первый апдейт, прямо целящий в подлинность
AI-контента; ловит неотредактированную генерацию
Чего избегать
Код: Выделить всё
- Panda-ловушка масштаба: массовые тонкие листинги (теги,
города, шаблоны) ради охвата = site-level риск
- AI publish-as-is: Racter ловит сайты с доминирующей
автогенерацией; один-два редактированных черновика - норм
- Переспам и рассинхрон тайтла: 7-битный stuffing-скор +
отдельный bad-title флаг = прямой негатив качества
- Смешение тем и языков на одном URL: размывает таргетинг,
роняет single-topicness, путает классификатор
Граница вывода. Существование полей (contentEffort, racterScores, chard/tofu/keto/rhubarb, clutterScore и т.д.) подтверждено утечкой - это факт. Архитектура ABC/Navboost/Quality и системы RankEmbedBERT/Navboost подтверждены показаниями DOJ - тоже факт. А вот точные веса, пороги и то, как именно эти скоры комбинируются в финале - НЕ подтверждены. Никто не может обещать "поднимите contentEffort и вырастете на N позиций". Это карта местности, а не GPS с точными координатами. Используйте как чек-лист приоритетов, а не как формулу.