Google: спам и понижения (Panda, SpamBrain, demotions)

anna_seo · Сообщение **anna_seo** » 13 июн 2026, 18:07

Google: спам и понижения - как устроен защитный контур ранжирования

Сразу обозначу рамку. Всё, что ниже, это реконструкция по утечке Content Warehouse (март-май 2024), материалам суда Минюста США против Google, патентам и Quality Rater Guidelines. Это не официальная формула ранжирования, и часть сигналов остаётся спорной по интерпретации. Поля в схемах существуют объективно (это код), но как именно они комбинируются в проде - модель, а не факт. Где могу - помечаю уровень подтверждения.

Ключевая мысль раздела SPAM: это не подсистема, которая что-то поднимает. Это контур, который ограничивает, понижает или вышибает из выдачи манипулятивные страницы. И главное архитектурное свойство - многократное независимое подавление. Один и тот же грязный паттерн (например, искусственный ссылочный рост) одновременно ловится несколькими системами: SpamBrain, AnchorSpamPenalizer, BadBackLinks/Penguin и детерминированными рецептами Spam Cookbook. Поэтому искать один волшебный фильтр бессмысленно - риск снимается системно.

ML-антиспам: SpamBrain как ядро

SpamBrain ML scores (F-SPAM-014) - подтверждён

Это семейство версионируемых ML-классификаторов, которые скорят спам сразу на трёх уровнях: хост (host-sitechunk), домен (domain-sitechunk) и отдельный документ (spambrainTotalDocSpamScore, диапазон 0..1). В схеме это поля PerDocData.spambrainData, .spambrainDomainSitechunkData, SpamBrainData.versionedData. Уровень подтверждения высокий: SpamBrain официально упоминается Google много лет, утечка лишь раскрыла структуру.

Что добавляет интернет к голой схеме. SpamBrain - это AI-бэкбон антиспама, и Google регулярно его переобучает под новые типы абуза, включая ссылочные схемы и scaled content. По разборам июньского Link Spam Update 2024, в реальном времени девальвация ссылок может начинаться в течение часов после обнаружения паттерна - это принципиально быстрее, чем периодические циклы старого Penguin 2012-2016. И SpamBrain смотрит не на отдельную ссылку, а на реляционные паттерны: связку домен-донор / домен-акцептор, тематический кластер донора, распределение анкоров по всему профилю и историческое поведение каждого узла сети.

Граница вывода: то, что поля host/domain/document существуют, - факт из кода. То, что SpamBrain работает в near-real-time по ссылкам, - заявление Google и консенсус SEO-сообщества по апдейту 2024, а не пункт утечки. Не путайте эти уровни.

Практический вывод. Поля скорятся на уровне документа, хоста И домена. Поэтому аудитить надо не только конкретный URL, а паттерн всего sitechunk. Один раздел, забитый автогеном, тянет вниз site-level качество. Перед масштабированием контент-фабрики проверьте, не генерит ли ваш конвейер gibberish-сигналы.

Документный спам-скор и кейворд-стаффинг

Код: Выделить всё

ID            Поле / система                  Что делает              Уровень
F-SPAM-016    PerDocData.DocLevelSpamScore    7 бит, 0..127;          подтверждён
                                              гейт индекс+краул       (COURT p.138)
F-SPAM-019    PerDocData.KeywordStuffingScore 7 бит, 0..127;          документирован
                                              отдельный скор переспама
F-SPAM-050    CompressedQualitySignals        вероятность скама       документирован
              .scamness                       0..1023; критичен YMYL
F-SPAM-031    Q* (anti-content-farm)          site-level авторитет;   документирован
                                              против ферм             (PATENT1)

DocLevelSpamScore - классический интегральный спам-скор. Высокие значения ведут к низкому приоритету краулинга, понижениям или выпадению из нормальной индексации. Важно: его существование прямо подтверждено судом (Минюст vs Google, стр. 138) - это не просто поле из утечки, а COURT-уровень. Тонкие страницы вида абзац плюс форма - зона риска ещё до попадания в индекс.

KeywordStuffingScore - отдельный сигнал, не растворённый в общем спам-скоре. Вывод: не гоняйтесь за универсальным процентом плотности ключа, его не существует как правила Google. Плохой паттерн - купить диван в Москве в H1, первом абзаце, meta-description, alt и ещё пять раз в тексте.

Scamness - ML-модель вероятности мошенничества, подаётся как один из Q*-сигналов. Критична для YMYL (финансы, здоровье, e-commerce). Триггеры риска: нет контактов и юр-информации, агрессивные CTA без ценности, расхождение заголовка и контента, нет политики возврата в магазине.

Анкорный спам: четыре независимых детектора

Это самая плотная часть раздела. Утечка показала, что анкор-спам гасится не одним фильтром, а связкой.

Код: Выделить всё

F-SPAM-007  AnchorSpamPenalizer       spamProbability + phraseFraq -> spamPenalty
                                      (вероятность спама по ВСЕМУ набору анкоров)
F-SPAM-002  penguinPenalty            Penguin-флаг 0/1 на уровне СТРАНИЦЫ
F-SPAM-003  badbacklinksPenalized     бинарный флаг; отключает improvanchor в Mustang
F-SPAM-008  demoted / demotedAll      SPAM locality; demotedAll = жёсткий режим,
                                      демотированы ВСЕ анкоры за период
F-SPAM-006  phraseAnchorSpamPenalty   детектор burst: всплеск однотипных фраз
F-SPAM-057  spambrainLavcScore        LAVC - анализ ссылочных схем по кластерам
F-SPAM-004  penguinEarlyAnchorProtected   РЕДКИЙ позитив: защита за ранние
                                          качественные анкоры

AnchorSpamPenalizer (F-SPAM-007) - ядро. ML предсказывает spamProbability по всему набору входящих анкоров и агрегирует с долей спам-фраз (phraseFraq) в итоговый spamPenalty. Это главный механизм гашения купленных ссылок. Оценивать надо весь профиль, а не отдельную ссылку.

Penguin теперь page-level (F-SPAM-002). Если упала одна страница - проверяйте её собственный ссылочный профиль, а не только домен. badbacklinksPenalized (F-SPAM-003) - отдельный флаг: токсичные ссылки могут не просто обнулять вес, а отключать анкорный вклад в скорере Mustang.

LAVC (F-SPAM-057, Link-based Anomaly Via Clustering) - компонент SpamBrain в NSR-данных, внедрён не позднее июля 2022. Анализирует ссылки на уровне кластеров. PBN и сети взаимных ссылок надо проверять как кластерный риск: даже если отдельный донор выглядит нормально, совпадение паттернов (IP-подсети, синхронное появление, общие аутбаунд-профили) повышает LAVC-риск.

Что из этого нашлось вовне утечки. SEO-разборы упоминают связанные сигналы anchorMismatchDemotion (наследие Penguin - понижение, когда анкор тематически не релевантен целевой странице) и exactMatchDomainDemotion (техническая реализация EMD-апдейта 2012 против keyword-stuffed доменов), а также булев флаг IsAnchorBayesSpam в PerDocData как выход байесовского классификатора анкоров. Имена правдоподобны и согласуются с архитектурой, но их трактовка - это работа сообщества по схеме, держите это как гипотезу, а не как доказанный факт.

Редкий позитив. penguinEarlyAnchorProtected (F-SPAM-004) - если ранние, естественно накопленные анкоры были качественными, документ получает защиту от последующего Penguin-демоушена. Это аргумент за долгосрочное выращивание естественных ссылок ДО любых активных кампаний. Но не переводите это в числа вроде 5-10 ссылок DR70+ - темп и качество оцениваются по нише.

Panda и сайт-уровневые демоушены

Panda demotion (F-SPAM-051) и Baby Panda v2 (F-SPAM-052) - документированы

Panda - это сайтовый демоушен низкого качества из SiteQualityFeatures, закодированный в CompressedQualitySignals.pandaDemotion. Бьёт по ВСЕМ страницам сайта, а не только по плохим. Baby Panda v2 - надстройка, которая анализирует рендеренный контент (QualityBoost.rendered.boost), а не сырой HTML, и ловит мусор, видимый только после выполнения JavaScript.

Контекст из интернета сильно осовременивает картину. Сообщество описывает Panda как призрак апдейта 2011, который кодифицирован в постоянный site-wide фактор. Его принципы продолжают жить в прямых наследниках - например, productReviewPDemoteSite описывают как более таргетированную эволюцию той же идеи site-level оценки качества. То есть Panda не выключили - её растворили в постоянных сигналах.

Если у крупного сайта падает трафик по разным URL при нормальном качестве отдельных страниц - ищите дилютеры качества по всему сайту: тонкий блог, автоген фильтров, дубли карточек без дифференциации. Panda site-level, поэтому лечится не одной страницей, а аудитом контентного инвентаря: noindex или удаление бесполезных URL, объединение дублей, доработка спасаемых.

Привязка к реальным апдейтам 2024-2026. Это важно, потому что схема статична, а апдейты показывают, куда едет вектор

Код: Выделить всё

Март 2024     Core + Spam Update. Три новые спам-политики
              - scaled content abuse (массовая генерация страниц)
              - site reputation abuse (parasite SEO на трастовых доменах)
              - expired domain abuse (перекупка доменов под старый траст)
              Заявленный эффект core: -45% низкокачественного контента
Июнь 2024     Link Spam Update - девальвация манипулятивных ссылок
Ноябрь 2024   Site reputation abuse: расширение политики, manual actions,
              алгоритмический заход против parasite SEO
2025          Курс на полностью алгоритмическое энфорсмент

Связь с разделом прямая: scaled content abuse - это про doc-level spam, gibberish и Panda site-level в связке; expired domain abuse - смотрите hostAge (F-SPAM-056, возраст хоста в днях с 2005-12-31, используется twiddler-ом для sandboxing fresh spam).

Детерминированные правила и взлом

Помимо ML, у Google есть Spam Cookbook (F-SPAM-024) - набор детерминированных рецептов. При совпадении паттерна применяется заданное действие вплоть до dropInServing (полное удаление из выдачи), с sitechunk-аннотациями на уровне сайта. Типичные жертвы: страницы с подставляемым городом купить диван в [ГОРОД], doorway-страницы одинаковой структуры, синонимайзеры.

Muppet (F-SPAM-027) - система детекта взлома с двумя независимыми детекторами, Raiden и Nautilus. Фиксируют raidenScore, дату обнаружения каждой системой и подмешивают сигналы при query-time joins для демоушена. Взлом - один из самых тяжёлых SEO-рисков: чистите инъекции немедленно, меняйте пароли и API-ключи, запрашивайте проверку в GSC.

Антифрод по кликам

Click signal anti-spam filtering (F-SPAM-047) - подтверждён (PATENT)

Перед использованием кликов в NavBoost идёт антифрод: один голос на cookie/IP для пары query-URL, полное удаление сигналов с нетипичным поведением и подозрительных источников. Вывод честный и неприятный для продавцов накруток: сервисы массовой прокрутки кликов не дают проверяемого устойчивого эффекта из-за voter-token логики и фильтрации аномалий, а источник данных можно сделать аномальным. Реальный CTR улучшайте сниппетом: title, дата, breadcrumb, rich snippet, попадание в интент.

Чего избегать - сводка рисков

Код: Выделить всё

РИСК                          СРАБАТЫВАЕТ В СВЯЗКЕ
Однотипные анкор-закупки      F-SPAM-007 + F-SPAM-006 + demotedAll(F-SPAM-008)
Тонкий/автоген контент массой  gibberish + F-SPAM-019 + SpamBrain doc(F-SPAM-014)
                              -> накопление = site-level Panda риск
Мобильные ловушки             interstitials + битый мобайл + N-1 редирект
Игнор безопасности            Muppet Raiden+Nautilus (F-SPAM-027) + crawler spam
Parasite SEO / scaled content site reputation abuse + scaled content abuse 2024

Финальная граница вывода. Поля и системы из утечки - это реальный код, но веса и точная комбинаторика - нет. Связь схемы с апдейтами 2024-2026 - аргументированная реконструкция SEO-сообщества, не подтверждение Google. Никто не может обещать восстановление после демоушена по чек-листу: часть политик (например жёсткие manual actions по site reputation abuse) в практике сообщества описывается как фактически невосстановимая для нарушающей секции. Стройте на честном качестве и системной гигиене, а не на обходе конкретного флага.

Источники (актуализация поверх методички):

Google: спам и понижения (Panda, SpamBrain, demotions)

Google: спам и понижения (Panda, SpamBrain, demotions)

Кто сейчас на конференции