Сразу обозначу рамку. Всё, что ниже, это реконструкция по утечке Content Warehouse (март-май 2024), материалам суда Минюста США против Google, патентам и Quality Rater Guidelines. Это не официальная формула ранжирования, и часть сигналов остаётся спорной по интерпретации. Поля в схемах существуют объективно (это код), но как именно они комбинируются в проде - модель, а не факт. Где могу - помечаю уровень подтверждения.
Ключевая мысль раздела SPAM: это не подсистема, которая что-то поднимает. Это контур, который ограничивает, понижает или вышибает из выдачи манипулятивные страницы. И главное архитектурное свойство - многократное независимое подавление. Один и тот же грязный паттерн (например, искусственный ссылочный рост) одновременно ловится несколькими системами: SpamBrain, AnchorSpamPenalizer, BadBackLinks/Penguin и детерминированными рецептами Spam Cookbook. Поэтому искать один волшебный фильтр бессмысленно - риск снимается системно.
ML-антиспам: SpamBrain как ядро
SpamBrain ML scores (F-SPAM-014) - подтверждён
Это семейство версионируемых ML-классификаторов, которые скорят спам сразу на трёх уровнях: хост (host-sitechunk), домен (domain-sitechunk) и отдельный документ (spambrainTotalDocSpamScore, диапазон 0..1). В схеме это поля PerDocData.spambrainData, .spambrainDomainSitechunkData, SpamBrainData.versionedData. Уровень подтверждения высокий: SpamBrain официально упоминается Google много лет, утечка лишь раскрыла структуру.
Что добавляет интернет к голой схеме. SpamBrain - это AI-бэкбон антиспама, и Google регулярно его переобучает под новые типы абуза, включая ссылочные схемы и scaled content. По разборам июньского Link Spam Update 2024, в реальном времени девальвация ссылок может начинаться в течение часов после обнаружения паттерна - это принципиально быстрее, чем периодические циклы старого Penguin 2012-2016. И SpamBrain смотрит не на отдельную ссылку, а на реляционные паттерны: связку домен-донор / домен-акцептор, тематический кластер донора, распределение анкоров по всему профилю и историческое поведение каждого узла сети.
Практический вывод. Поля скорятся на уровне документа, хоста И домена. Поэтому аудитить надо не только конкретный URL, а паттерн всего sitechunk. Один раздел, забитый автогеном, тянет вниз site-level качество. Перед масштабированием контент-фабрики проверьте, не генерит ли ваш конвейер gibberish-сигналы.Граница вывода: то, что поля host/domain/document существуют, - факт из кода. То, что SpamBrain работает в near-real-time по ссылкам, - заявление Google и консенсус SEO-сообщества по апдейту 2024, а не пункт утечки. Не путайте эти уровни.
Документный спам-скор и кейворд-стаффинг
Код: Выделить всё
ID Поле / система Что делает Уровень
F-SPAM-016 PerDocData.DocLevelSpamScore 7 бит, 0..127; подтверждён
гейт индекс+краул (COURT p.138)
F-SPAM-019 PerDocData.KeywordStuffingScore 7 бит, 0..127; документирован
отдельный скор переспама
F-SPAM-050 CompressedQualitySignals вероятность скама документирован
.scamness 0..1023; критичен YMYL
F-SPAM-031 Q* (anti-content-farm) site-level авторитет; документирован
против ферм (PATENT1)
KeywordStuffingScore - отдельный сигнал, не растворённый в общем спам-скоре. Вывод: не гоняйтесь за универсальным процентом плотности ключа, его не существует как правила Google. Плохой паттерн - купить диван в Москве в H1, первом абзаце, meta-description, alt и ещё пять раз в тексте.
Scamness - ML-модель вероятности мошенничества, подаётся как один из Q*-сигналов. Критична для YMYL (финансы, здоровье, e-commerce). Триггеры риска: нет контактов и юр-информации, агрессивные CTA без ценности, расхождение заголовка и контента, нет политики возврата в магазине.
Анкорный спам: четыре независимых детектора
Это самая плотная часть раздела. Утечка показала, что анкор-спам гасится не одним фильтром, а связкой.
Код: Выделить всё
F-SPAM-007 AnchorSpamPenalizer spamProbability + phraseFraq -> spamPenalty
(вероятность спама по ВСЕМУ набору анкоров)
F-SPAM-002 penguinPenalty Penguin-флаг 0/1 на уровне СТРАНИЦЫ
F-SPAM-003 badbacklinksPenalized бинарный флаг; отключает improvanchor в Mustang
F-SPAM-008 demoted / demotedAll SPAM locality; demotedAll = жёсткий режим,
демотированы ВСЕ анкоры за период
F-SPAM-006 phraseAnchorSpamPenalty детектор burst: всплеск однотипных фраз
F-SPAM-057 spambrainLavcScore LAVC - анализ ссылочных схем по кластерам
F-SPAM-004 penguinEarlyAnchorProtected РЕДКИЙ позитив: защита за ранние
качественные анкоры
Penguin теперь page-level (F-SPAM-002). Если упала одна страница - проверяйте её собственный ссылочный профиль, а не только домен. badbacklinksPenalized (F-SPAM-003) - отдельный флаг: токсичные ссылки могут не просто обнулять вес, а отключать анкорный вклад в скорере Mustang.
LAVC (F-SPAM-057, Link-based Anomaly Via Clustering) - компонент SpamBrain в NSR-данных, внедрён не позднее июля 2022. Анализирует ссылки на уровне кластеров. PBN и сети взаимных ссылок надо проверять как кластерный риск: даже если отдельный донор выглядит нормально, совпадение паттернов (IP-подсети, синхронное появление, общие аутбаунд-профили) повышает LAVC-риск.
Что из этого нашлось вовне утечки. SEO-разборы упоминают связанные сигналы anchorMismatchDemotion (наследие Penguin - понижение, когда анкор тематически не релевантен целевой странице) и exactMatchDomainDemotion (техническая реализация EMD-апдейта 2012 против keyword-stuffed доменов), а также булев флаг IsAnchorBayesSpam в PerDocData как выход байесовского классификатора анкоров. Имена правдоподобны и согласуются с архитектурой, но их трактовка - это работа сообщества по схеме, держите это как гипотезу, а не как доказанный факт.
Редкий позитив. penguinEarlyAnchorProtected (F-SPAM-004) - если ранние, естественно накопленные анкоры были качественными, документ получает защиту от последующего Penguin-демоушена. Это аргумент за долгосрочное выращивание естественных ссылок ДО любых активных кампаний. Но не переводите это в числа вроде 5-10 ссылок DR70+ - темп и качество оцениваются по нише.
Panda и сайт-уровневые демоушены
Panda demotion (F-SPAM-051) и Baby Panda v2 (F-SPAM-052) - документированы
Panda - это сайтовый демоушен низкого качества из SiteQualityFeatures, закодированный в CompressedQualitySignals.pandaDemotion. Бьёт по ВСЕМ страницам сайта, а не только по плохим. Baby Panda v2 - надстройка, которая анализирует рендеренный контент (QualityBoost.rendered.boost), а не сырой HTML, и ловит мусор, видимый только после выполнения JavaScript.
Контекст из интернета сильно осовременивает картину. Сообщество описывает Panda как призрак апдейта 2011, который кодифицирован в постоянный site-wide фактор. Его принципы продолжают жить в прямых наследниках - например, productReviewPDemoteSite описывают как более таргетированную эволюцию той же идеи site-level оценки качества. То есть Panda не выключили - её растворили в постоянных сигналах.
Привязка к реальным апдейтам 2024-2026. Это важно, потому что схема статична, а апдейты показывают, куда едет векторЕсли у крупного сайта падает трафик по разным URL при нормальном качестве отдельных страниц - ищите дилютеры качества по всему сайту: тонкий блог, автоген фильтров, дубли карточек без дифференциации. Panda site-level, поэтому лечится не одной страницей, а аудитом контентного инвентаря: noindex или удаление бесполезных URL, объединение дублей, доработка спасаемых.
Код: Выделить всё
Март 2024 Core + Spam Update. Три новые спам-политики
- scaled content abuse (массовая генерация страниц)
- site reputation abuse (parasite SEO на трастовых доменах)
- expired domain abuse (перекупка доменов под старый траст)
Заявленный эффект core: -45% низкокачественного контента
Июнь 2024 Link Spam Update - девальвация манипулятивных ссылок
Ноябрь 2024 Site reputation abuse: расширение политики, manual actions,
алгоритмический заход против parasite SEO
2025 Курс на полностью алгоритмическое энфорсмент
Детерминированные правила и взлом
Помимо ML, у Google есть Spam Cookbook (F-SPAM-024) - набор детерминированных рецептов. При совпадении паттерна применяется заданное действие вплоть до dropInServing (полное удаление из выдачи), с sitechunk-аннотациями на уровне сайта. Типичные жертвы: страницы с подставляемым городом купить диван в [ГОРОД], doorway-страницы одинаковой структуры, синонимайзеры.
Muppet (F-SPAM-027) - система детекта взлома с двумя независимыми детекторами, Raiden и Nautilus. Фиксируют raidenScore, дату обнаружения каждой системой и подмешивают сигналы при query-time joins для демоушена. Взлом - один из самых тяжёлых SEO-рисков: чистите инъекции немедленно, меняйте пароли и API-ключи, запрашивайте проверку в GSC.
Антифрод по кликам
Click signal anti-spam filtering (F-SPAM-047) - подтверждён (PATENT)
Перед использованием кликов в NavBoost идёт антифрод: один голос на cookie/IP для пары query-URL, полное удаление сигналов с нетипичным поведением и подозрительных источников. Вывод честный и неприятный для продавцов накруток: сервисы массовой прокрутки кликов не дают проверяемого устойчивого эффекта из-за voter-token логики и фильтрации аномалий, а источник данных можно сделать аномальным. Реальный CTR улучшайте сниппетом: title, дата, breadcrumb, rich snippet, попадание в интент.
Чего избегать - сводка рисков
Код: Выделить всё
РИСК СРАБАТЫВАЕТ В СВЯЗКЕ
Однотипные анкор-закупки F-SPAM-007 + F-SPAM-006 + demotedAll(F-SPAM-008)
Тонкий/автоген контент массой gibberish + F-SPAM-019 + SpamBrain doc(F-SPAM-014)
-> накопление = site-level Panda риск
Мобильные ловушки interstitials + битый мобайл + N-1 редирект
Игнор безопасности Muppet Raiden+Nautilus (F-SPAM-027) + crawler spam
Parasite SEO / scaled content site reputation abuse + scaled content abuse 2024
Источники (актуализация поверх методички):Финальная граница вывода. Поля и системы из утечки - это реальный код, но веса и точная комбинаторика - нет. Связь схемы с апдейтами 2024-2026 - аргументированная реконструкция SEO-сообщества, не подтверждение Google. Никто не может обещать восстановление после демоушена по чек-листу: часть политик (например жёсткие manual actions по site reputation abuse) в практике сообщества описывается как фактически невосстановимая для нарушающей секции. Стройте на честном качестве и системной гигиене, а не на обходе конкретного флага.