Короткий дисклеймер сразу, чтобы потом не было претензий. Все имена систем и полей ниже - это реконструкция по утечке Content Warehouse API (май 2024), по документам и показаниям из дела DOJ против Google (2023-2025), по патентам и Quality Rater Guidelines. Это не официальная формула ранжирования. Часть сигналов задокументирована в схеме утечки, но вес и точная логика применения нам неизвестны, и кое-что прямо спорно. Где спорно - я помечаю.
Главный тезис раздела простой. Google не оценивает каждую страницу в вакууме. Документ привязывается к логическому сайту (sitechunk), и по этому ключу к нему подтягиваются агрегированные сигналы качества, доверия и спам-классификации. Поэтому SEO-аудит надо вести в два слоя: отдельно URL-уровень и отдельно host-уровень. Сильная статья на слабом по качеству хосте может недополучать, и наоборот.
Как сайт вообще опознаётся: sitechunk и NSR
Базовая инфраструктура, на которой держится весь раздел.
Код: Выделить всё
поле / система что делает ID уровень
-------------------- -------------------------------------- --------- -------------
nsrSitechunk логический кусок сайта, к которому F-HOST-001 документирован
привязана страница; может быть шире
или уже домена (канал YouTube и т.п.)
tundraClusterId устаревший кластерный id, поглощён F-HOST-001 документирован
nsr_data_proto
topPetacatTaxId основная тематика сайта по внутренней F-HOST-012 документирован
таксономии Petacat; вход для
SiteboostTwiddler (буст при совпадении
темы сайта и запроса)
По teme Petacat вывод приземлённый: чёткая тематическая специализация даёт сайту понятный контекст в нише. Не мешайте несвязанные темы в одном домене без редакционной причины. Если ведёте несколько далёких друг от друга направлений - часто оправданы отдельные проекты.
Site-level качество: NSR-пайплайн и Q*
Это ядро раздела. Несколько ML-моделей оценивают контент на уровне sitechunk, агрегируются в NSR и через него формируют site-level контекст для Q*. Тут важно сопоставление с тем, что всплыло на суде DOJ.
Что конкретно лежит в этом слое по утечкеИз показаний по делу DOJ: существует в значительной степени статический, не зависящий от запроса сигнал качества Q*. Инженер Google (HJ Kim) описывал его как воплощение доверия к сайту и называл incredibly important - его строили целенаправленно против контент-ферм. PageRank по тем же документам - лишь один из входов в более широкий Q*. То есть site-level качество - это не теория энтузиастов, а подтверждённый судом архитектурный слой.
Код: Выделить всё
сигнал поле в схеме знак ID уровень
-------------------- ------------------------------ ------- ---------- -------------
Chard (Content Hard) QualityNsrNsrData.chardEncoded + F-HOST-006 документирован
Tofu QualityNsrNsrData.tofu + F-HOST-007 документирован
smallPersonalSite QualityNsrNsrData. + (буст F-HOST-005 документирован
smallPersonalSite малых)
clutterScore QualityNsrNsrData.clutterScore - штраф F-HOST-008 документирован
racterScores QualityNsrNsrData.racterScores - штраф F-HOST-009 документирован
Это два отдельных ML-предиктора качества контента. Оба оценивают на уровне страниц, потом агрегируются до значения sitechunk. Ансамбль из двух моделей сделан для надёжности. Практический смысл агрегации: большой массив тонких, дублированных или сгенерированных страниц портит site-level оценку, даже если у вас есть десяток сильных материалов. Поэтому улучшить пару статей - не стратегия. Нужна системная работа: редполитика, регулярный контент-аудит, объединение и удаление слабых страниц. Первые кандидаты на чистку - страницы с малым объёмом оригинального текста, дубли с проблемным canonical, пустые категорийные листинги.
smallPersonalSite - буст малым авторским сайтам
Отдельный скор (по утечке - инициатива go/promoting-personal-blogs). Это алгоритмический противовес доминированию крупных агрегаторов: класс малых персональных сайтов и блогов может получать положительное смещение. Честная граница - вес неизвестен, и сообщество прямо отмечает, что насколько он применяется, остаётся открытым вопросом. Притворяться малым личным сайтом при шаблонном или агрегированном контенте бессмысленно: классификатор смотрит на паттерн, а не на размер. Для крупных проектов это просто нерелевантный сигнал, а не штраф.
clutterScore - штраф за захламлённость
Site-level дельта к NSR, бьющая по раздражающим ресурсам: агрессивная реклама, автоплей-видео, навязчивые interstitial и поп-апы, тяжёлые рекламные сети (в утечке - go/clutter-v0). Подчёркиваю слово site-level: страдают и страницы без рекламы, если шаблон в целом захламлён. Аудитировать надо именно шаблоны: число рекламных сетей, sticky-оверлеи, автоплей, первый экран, Core Web Vitals.
racterScores - классификатор массового AGC
Site-level AGC-классификатор (artificially generated content). По разбору сообщества (находка Juan Gonzalez Villa) - Google оценивает вероятность, что контент сайта сгенерирован автоматически. Скор версионирован (versionId), то есть модель регулярно обновляется. Опасен паттерн сайта, а не отдельный текст: сотни однотипных AI-статей, массовый перефраз чужого, отсутствие оригинальной ценности. Единичные AI-ассистированные материалы при высоком общем качестве и редправке - не то же самое. Простой тест: возьмите 5 случайных страниц и спросите, есть ли в них человеческая польза, опыт и ответственность.
Доверие к домену и спам-гейты
Код: Выделить всё
сигнал поле знак ID уровень
-------------------- -------------------------------- --------- ---------- ------------
registrationinfo CompositeDoc.registrationinfo нейтр. F-HOST-002 документирован
(даты создания/ (контекст
истечения, domainedge) доверия)
hostid + parked CompositeDocIndexingInfo.hostid - гейт F-HOST-003 документирован
detection фильтр
Авторитет хоста и crawl budget
Код: Выделить всё
сигнал поле / источник знак ID уровень
-------------------- ------------------------------- ---- ---------- -------------
Homepage PageRank -> PerDocData.homepagePagerankNs + F-HOST-010 документирован
все страницы
Onsite prominence PerDocData.onsiteProminence + F-HOST-011 документирован
(13-битная важность (симуляция трафика с homepage и
внутри сайта) high-craps страниц)
Crawl budget PATENT6 line.408 + F-HOST-004 документирован
Onsite prominence - 13-битная важность страницы внутри сайта, считается симуляцией прохода трафика с главной и кликовых (craps) страниц по внутренним ссылкам. Управляется внутренней перелинковкой: приоритетные страницы должны получать ссылки с homepage и хабов, а не только висеть в навигации. Правило 2-3 кликов используйте как аудиторскую эвристику, а не как документированный порог Google.
Crawl budget (из патента): краулер берёт конечное число URL за единицу времени, ранжируя их по важности и частоте обновлений. Концентрируйте бюджет на важных URL: канонизируйте параметрические и фасетные дубли, чистите sitemap, держите понятную архитектуру. На крупных e-commerce и новостных - это регулярная задача в GSC.
Чего избегать
Коротко остальноеИллюзия изоляции через поддомены. Site reputation abuse (parasite SEO) - ровно про это. Политика стартовала как ручные санкции в марте 2024, а к августовскому Spam Update 2025 стала алгоритмической: участие издателя в третьесторонних страницах больше не даёт иммунитета. Механика sitechunk позволяет Google оценивать раздел домена независимо и отвязывать его от родительского авторитета. То есть сам приём паразитирования на чужом host-авторитете структурно ломается - это не штраф, который снимается, а изменение того, как считается авторитет.
- Ставка на массовый AI-контент без редактуры - site-level риск (Racter реагирует на паттерн, обновляется версионно).
- Агрессивная монетизация и захламлённые шаблоны - clutterScore бьёт по всему хосту, включая чистые страницы.
- Игнор crawl budget на больших сайтах - тысячи мусорных URL размывают обход, важное индексируется медленнее.
Граница вывода честно: site-level слой подтверждён и схемой утечки, и судом DOJ (Q* как доверие к сайту), но точных весов нам никто не давал. Обещать кому-то конкретный прирост за конкретную правку нельзя. Что реально доказуемо - это направление: системное качество хоста, чистая монетизация, тематическая фокусировка и осмысленная перелинковка работают на host-сигналы, а массовый шаблонный контент и паразитирование на чужом авторитете - против них.