Google: сайт-уровень и host-сигналы

anna_seo · Сообщение **anna_seo** » 13 июн 2026, 18:32

Google: сайт-уровень и host-сигналы

Короткий дисклеймер сразу, чтобы потом не было претензий. Все имена систем и полей ниже - это реконструкция по утечке Content Warehouse API (май 2024), по документам и показаниям из дела DOJ против Google (2023-2025), по патентам и Quality Rater Guidelines. Это не официальная формула ранжирования. Часть сигналов задокументирована в схеме утечки, но вес и точная логика применения нам неизвестны, и кое-что прямо спорно. Где спорно - я помечаю.

Главный тезис раздела простой. Google не оценивает каждую страницу в вакууме. Документ привязывается к логическому сайту (sitechunk), и по этому ключу к нему подтягиваются агрегированные сигналы качества, доверия и спам-классификации. Поэтому SEO-аудит надо вести в два слоя: отдельно URL-уровень и отдельно host-уровень. Сильная статья на слабом по качеству хосте может недополучать, и наоборот.

Как сайт вообще опознаётся: sitechunk и NSR

Базовая инфраструктура, на которой держится весь раздел.

Код: Выделить всё

поле / система        что делает                              ID         уровень
--------------------  --------------------------------------  ---------  -------------
nsrSitechunk          логический кусок сайта, к которому       F-HOST-001 документирован
                      привязана страница; может быть шире
                      или уже домена (канал YouTube и т.п.)
tundraClusterId       устаревший кластерный id, поглощён       F-HOST-001 документирован
                      nsr_data_proto
topPetacatTaxId       основная тематика сайта по внутренней     F-HOST-012 документирован
                      таксономии Petacat; вход для
                      SiteboostTwiddler (буст при совпадении
                      темы сайта и запроса)

Ключевое слово - sitechunk. Это НЕ обязательно домен. Для крупных платформ NSR может считаться на уровне раздела или канала, а граница куска определяется алгоритмом, а не вашей URL-структурой. Отсюда первое практическое следствие, к которому я ещё вернусь: идея изолировать мусор на поддомене или в подпапку работает только тогда, когда Google реально видит это как отдельный sitechunk.

По teme Petacat вывод приземлённый: чёткая тематическая специализация даёт сайту понятный контекст в нише. Не мешайте несвязанные темы в одном домене без редакционной причины. Если ведёте несколько далёких друг от друга направлений - часто оправданы отдельные проекты.

Site-level качество: NSR-пайплайн и Q*

Это ядро раздела. Несколько ML-моделей оценивают контент на уровне sitechunk, агрегируются в NSR и через него формируют site-level контекст для Q*. Тут важно сопоставление с тем, что всплыло на суде DOJ.

Из показаний по делу DOJ: существует в значительной степени статический, не зависящий от запроса сигнал качества Q*. Инженер Google (HJ Kim) описывал его как воплощение доверия к сайту и называл incredibly important - его строили целенаправленно против контент-ферм. PageRank по тем же документам - лишь один из входов в более широкий Q*. То есть site-level качество - это не теория энтузиастов, а подтверждённый судом архитектурный слой.

Что конкретно лежит в этом слое по утечке

Код: Выделить всё

сигнал                поле в схеме                    знак     ID          уровень
--------------------  ------------------------------  -------  ----------  -------------
Chard (Content Hard)  QualityNsrNsrData.chardEncoded  +        F-HOST-006  документирован
Tofu                  QualityNsrNsrData.tofu          +        F-HOST-007  документирован
smallPersonalSite     QualityNsrNsrData.              + (буст  F-HOST-005  документирован
                      smallPersonalSite                малых)
clutterScore          QualityNsrNsrData.clutterScore  - штраф  F-HOST-008  документирован
racterScores          QualityNsrNsrData.racterScores  - штраф  F-HOST-009  документирован

Chard и Tofu - два независимых предиктора качества

Это два отдельных ML-предиктора качества контента. Оба оценивают на уровне страниц, потом агрегируются до значения sitechunk. Ансамбль из двух моделей сделан для надёжности. Практический смысл агрегации: большой массив тонких, дублированных или сгенерированных страниц портит site-level оценку, даже если у вас есть десяток сильных материалов. Поэтому улучшить пару статей - не стратегия. Нужна системная работа: редполитика, регулярный контент-аудит, объединение и удаление слабых страниц. Первые кандидаты на чистку - страницы с малым объёмом оригинального текста, дубли с проблемным canonical, пустые категорийные листинги.

smallPersonalSite - буст малым авторским сайтам

Отдельный скор (по утечке - инициатива go/promoting-personal-blogs). Это алгоритмический противовес доминированию крупных агрегаторов: класс малых персональных сайтов и блогов может получать положительное смещение. Честная граница - вес неизвестен, и сообщество прямо отмечает, что насколько он применяется, остаётся открытым вопросом. Притворяться малым личным сайтом при шаблонном или агрегированном контенте бессмысленно: классификатор смотрит на паттерн, а не на размер. Для крупных проектов это просто нерелевантный сигнал, а не штраф.

clutterScore - штраф за захламлённость

Site-level дельта к NSR, бьющая по раздражающим ресурсам: агрессивная реклама, автоплей-видео, навязчивые interstitial и поп-апы, тяжёлые рекламные сети (в утечке - go/clutter-v0). Подчёркиваю слово site-level: страдают и страницы без рекламы, если шаблон в целом захламлён. Аудитировать надо именно шаблоны: число рекламных сетей, sticky-оверлеи, автоплей, первый экран, Core Web Vitals.

racterScores - классификатор массового AGC

Site-level AGC-классификатор (artificially generated content). По разбору сообщества (находка Juan Gonzalez Villa) - Google оценивает вероятность, что контент сайта сгенерирован автоматически. Скор версионирован (versionId), то есть модель регулярно обновляется. Опасен паттерн сайта, а не отдельный текст: сотни однотипных AI-статей, массовый перефраз чужого, отсутствие оригинальной ценности. Единичные AI-ассистированные материалы при высоком общем качестве и редправке - не то же самое. Простой тест: возьмите 5 случайных страниц и спросите, есть ли в них человеческая польза, опыт и ответственность.

Доверие к домену и спам-гейты

Код: Выделить всё

сигнал                поле                              знак       ID          уровень
--------------------  --------------------------------  ---------  ----------  ------------
registrationinfo      CompositeDoc.registrationinfo     нейтр.     F-HOST-002  документирован
(даты создания/                                         (контекст
истечения, domainedge)                                  доверия)
hostid + parked       CompositeDocIndexingInfo.hostid   - гейт     F-HOST-003  документирован
detection                                               фильтр

Регистрационные данные - это контекст антиспам-гигиены, а не самостоятельный буст. Не стройте стратегию вокруг возраста домена. Стабильное владение и отсутствие сезонных всплесков важнее самой длительности регистрации. Parked-детект - это гейт: домен-заглушку с рекламными блоками без контента демоутят или фильтруют. Не выкатывайте парковку в ожидании наполнения - хост успеет получить parked-контекст. Сначала контент, потом ждём краулинг и ранжирование.

Авторитет хоста и crawl budget

Код: Выделить всё

сигнал                поле / источник                  знак  ID          уровень
--------------------  -------------------------------  ----  ----------  -------------
Homepage PageRank ->  PerDocData.homepagePagerankNs    +     F-HOST-010  документирован
все страницы
Onsite prominence     PerDocData.onsiteProminence      +     F-HOST-011  документирован
(13-битная важность   (симуляция трафика с homepage и
внутри сайта)         high-craps страниц)
Crawl budget          PATENT6 line.408                 +     F-HOST-004  документирован

PageRank главной (homepagePagerankNs) копируется в данные каждого документа сайта - то есть служит прокси-авторитетом даже для глубоких страниц со слабым собственным PageRank. Отсюда вывод: брендовые ссылки, упоминания, естественные цитирования на главную поддерживают всю глубину. Если хорошие страницы блога или продукта плохо ранжируются - проверяйте не только их URL-сигналы, но и авторитет домена. Тут же напомню про утечку siteAuthority (поле, выводимое из quality_nsr.SiteAuthority): сообщество читает его как композитный site-level скор, сливающий ссылочный авторитет, поведение и тематику. Это финал многолетних отрицаний Google того, что у него есть domain authority.

Onsite prominence - 13-битная важность страницы внутри сайта, считается симуляцией прохода трафика с главной и кликовых (craps) страниц по внутренним ссылкам. Управляется внутренней перелинковкой: приоритетные страницы должны получать ссылки с homepage и хабов, а не только висеть в навигации. Правило 2-3 кликов используйте как аудиторскую эвристику, а не как документированный порог Google.

Crawl budget (из патента): краулер берёт конечное число URL за единицу времени, ранжируя их по важности и частоте обновлений. Концентрируйте бюджет на важных URL: канонизируйте параметрические и фасетные дубли, чистите sitemap, держите понятную архитектуру. На крупных e-commerce и новостных - это регулярная задача в GSC.

Чего избегать

Иллюзия изоляции через поддомены. Site reputation abuse (parasite SEO) - ровно про это. Политика стартовала как ручные санкции в марте 2024, а к августовскому Spam Update 2025 стала алгоритмической: участие издателя в третьесторонних страницах больше не даёт иммунитета. Механика sitechunk позволяет Google оценивать раздел домена независимо и отвязывать его от родительского авторитета. То есть сам приём паразитирования на чужом host-авторитете структурно ломается - это не штраф, который снимается, а изменение того, как считается авторитет.

Коротко остальное
- Ставка на массовый AI-контент без редактуры - site-level риск (Racter реагирует на паттерн, обновляется версионно).
- Агрессивная монетизация и захламлённые шаблоны - clutterScore бьёт по всему хосту, включая чистые страницы.
- Игнор crawl budget на больших сайтах - тысячи мусорных URL размывают обход, важное индексируется медленнее.

Граница вывода честно: site-level слой подтверждён и схемой утечки, и судом DOJ (Q* как доверие к сайту), но точных весов нам никто не давал. Обещать кому-то конкретный прирост за конкретную правку нельзя. Что реально доказуемо - это направление: системное качество хоста, чистая монетизация, тематическая фокусировка и осмысленная перелинковка работают на host-сигналы, а массовый шаблонный контент и паразитирование на чужом авторитете - против них.

Google: сайт-уровень и host-сигналы

Google: сайт-уровень и host-сигналы

Кто сейчас на конференции