SEO: оптимизация под факторы

kirill_ir · Сообщение **kirill_ir** » 08 июн 2026, 03:08

Часть VI · ~9 ч · Сложность: (средний) · Пререквизиты: Модуль 6, 7, 8, 11, 15, 16

Обзор модуля

Этот модуль — синтез всего курса с точки зрения того, кто пытается продвинуть свой ресурс в выдаче. Все предыдущие модули описывали поисковую систему «изнутри»: как она обходит веб (Модуль 2), каноникализирует и индексирует (Модули 3–4), считает текстовую релевантность (Модуль 6) и ссылочный вес (Модуль 7), смешивает сигналы в каскаде ранжирования (Модули 8–12), собирает выдачу (Модули 14–15) и обороняется от манипуляций (Модуль 16). Здесь мы разворачиваем оптику на 180°: тот же конвейер глазами оптимизатора (SEO-специалиста), чья задача — повысить видимость ресурса, не нарушив правил и не попав под санкции.

Главная идея модуля жёсткая и неприятная для индустрии «волшебных рычагов»: большинство классических приёмов оптимизации бьют по слотам, которые система уже обнулила или научилась игнорировать. Покупная ссылка целит в PageRank, но граф давно очищается от платных рёбер (Модуль 7). Анкорная накрутка целит в анкор-текст, но он демпфируется и штрафуется (Модули 7, 16). Плотность ключевиков целит в tf, но tf насыщается ещё в BM25 (Модуль 6) и переспам ловится антиспамом (Модуль 16). Эти усилия уходят в мёртвые рычаги — факторы, вес которых обнулён, насыщен или перекрыт защитой. Зато по-настоящему весит то, что трудно подделать: удовлетворение интента, измеренное поведением (Модуль 11), которое нельзя сымитировать одной строкой HTML.

В сквозном конвейере «обход → индекс → факторы → ранжирование → выдача → постобработка → измерение» оптимизатор не имеет прямого доступа ни к одной стадии. Он влияет на систему только косвенно — через то, что публикует, как структурирует сайт и какой пользовательский опыт создаёт. Поэтому модуль строится как карта: какой рычаг на какую стадию воздействует, какой из рычагов мёртв и почему, какие технические ограничения системы (схлопывание по хосту, предельная глубина выдачи, дубли, краулинговый бюджет) надо учитывать, и где проходит граница между белыми, серыми и чёрными методами с их рисками.

Внимание. Модуль не учит «обманывать поиск». Он объясняет, почему обман не работает в долгую и какие из общеизвестных приёмов давно бессмысленны. Вся механика санкций берётся из Модуля 16 на уровне принципов; конкретные пороги и сигналы не публикуются ни одной системой и здесь не выдумываются.

Как читать по трекам

Студент — обязательны 20.1 (почему рычаги мертвы — это лучший способ закрепить, как факторы устроены) и 20.2 (что реально весит). 20.3 и 20.4 — на уровне идей.
Инженер — обязательны 20.3 (технические ограничения: каноникализация, краулинговый бюджет, глубина выдачи — это ровно то, что инженер закладывает в систему) и 20.4 (модель угроз: как методы соотносятся с антиспамом). 20.1–20.2 как ревизия пройденного «с другой стороны».
SEO — весь модуль обязателен и является целевым. Особое внимание: SEO-врезки в каждой главе, чек-листы технического здоровья (20.3) и шкала рисков методов (20.4).
Смешанный — последовательно весь модуль; формулы из Модулей 6–8 при необходимости освежить по ссылкам.

Карта модуля

20.1. Мифы и мёртвые рычаги — классические покупные ссылки, анкорная накрутка, мета-кейворды, плотность ключевиков; почему каждый из них бьёт по обнулённому слоту. (средний)
20.2. Работающие рычаги — удовлетворение интента (поведение), текстовая близость, свежесть где нужна, отсутствие спам-сигналов, техническое здоровье. (средний)
20.3. Технические ограничения для оптимизатора — схлопывание по хосту, предельная глубина выдачи, дубли и каноникализация, краулинговый бюджет. (средний)
20.4. Белые/серые/чёрные методы — риски, пессимизации и санкции; этика. (средний)

Глава 20.1. Мифы и мёртвые рычаги (средний)

Цели обучения

После главы студент сможет:

Объяснить, что такое «мёртвый рычаг» — фактор, целевой слот которого обнулён, насыщен или перекрыт защитой, — и привести четыре канонических примера.
Связать каждый миф оптимизации с конкретным механизмом из профильного модуля, который его обесценивает (BM25 — Модуль 6; очистка графа — Модуль 7; антиспам — Модуль 16).
Различать «фактор перестал работать» и «фактор стал штрафным»: переспам не просто бесполезен, он опасен.
Оценить ожидаемую отдачу классического приёма как функцию «сколько весит слот × насколько он защищён».
Развенчать мета-кейворды и плотность ключевиков на уровне формул и истории, а не «по слухам».

Конспект

Оптимизатор тратит ресурс (деньги, время, тексты, ссылки) в расчёте на отклик системы. Рациональность приёма определяется простым произведением:

Код: Выделить всё

ожидаемая_отдача ≈ вес_целевого_слота × (1 − вероятность_нейтрализации) − риск_санкции

Мёртвый рычаг — приём, у которого либо весцелевогослота → 0 (слот обнулён или насыщен), либо вероятностьнейтрализации → 1 (защита перекрывает), либо рисксанкции превышает любую отдачу. Разберём четыре классических мифа именно через эту формулу.

Интуиция. Представьте, что вы оптимизируете под систему, которая двадцать лет видела всех, кто оптимизировал до вас. Любой приём, который «работал» и был дёшев в накрутке, давно либо обесценен (вес слота сведён к нулю), либо превращён в ловушку (стал штрафным сигналом). Выживают только те рычаги, которые дорого подделать, потому что их дешёвую подделку система уже научилась ловить.

Миф 1. Классические покупные ссылки

Тезис мифа: «Купи 100 ссылок с трастовых доменов — и PageRank поднимет тебя в топ.»

Целевой слот — ссылочный вес (Модуль 7). Проблема в том, что современный анализ графа целит не в количество рёбер, а в их естественность. Платные ссылочные сети выдают себя структурно:

Аномалии графа. Тематически несвязанные доноры, взрывной рост ссылочной массы, площадки, ссылающиеся «на всех подряд» (link farms, PBN — private blog networks), отсутствие обратного органического трафика по ссылке. Всё это — ровно те признаки, по которым строится понижающая модель доверия (TrustRank / антиспам-классификатор графа, Модуль 7, Модуль 16).
Обнуление рёбер. Подозрительное ребро не «штрафуется на чуть-чуть» — оно может быть полностью исключено из расчёта PageRank. Тогда деньги уплачены за ребро, которого для системы не существует.
Демпфирование передачи. Даже легитимная ссылка передаёт вес с затуханием (damping) и делит его на исходящую степень донора; покупка ссылки на странице с сотней других платных ссылок отдаёт исчезающе малую долю.

Пример. Сайт закупил 200 ссылок с сетки из 20 доменов, каждый ссылается на 150 коммерческих ресурсов. Граф-классификатор помечает все 20 доменов как PBN, их исходящие рёбра обнуляются. Эффект на PageRank целевого сайта — нулевой. Хуже: если система решит, что закупка была преднамеренной, целевой хост получает понижающий множитель (Модуль 16). Отдача отрицательна.

SEO-врезка. Покупная ссылка не «не работает» — она работает против вас при обнаружении. Единственная ссылка, которую нельзя обнулить, — та, которую дали добровольно за реальную ценность контента. Это не лозунг, а прямое следствие того, что граф очищается именно от неестественных паттернов (Модуль 7).

Миф 2. Анкорная накрутка

Тезис мифа: «Поставь во всех анкорах точное вхождение запроса — и система свяжет страницу с этим запросом.»

Анкор-текст (anchor text) — реально сильный сигнал текстовой релевантности, потому что это описание страницы чужими словами (Модуль 6; физически живёт на рёбрах графа — Модуль 7). Но именно поэтому он — первая мишень манипуляции и первая цель защиты:

Неестественный анкорный профиль. У органики распределение анкоров разнообразное: брендовые, «тут», «по ссылке», URL, длинные фразы. Профиль, где 80% анкоров — точное коммерческое вхождение («купить X дёшево»), статистически невозможен у честного ресурса и ловится как аномалия (Модуль 16).
Демпфирование одинаковых анкоров. Системы давно ограничивают вклад повторяющегося анкор-текста с одного источника/кластера: тысяча ссылок с одинаковым анкором даёт не в тысячу раз больше, а близко к одному «голосу» (насыщение, родственное BM25-насыщению из Модуля 6).
Переход в штраф. Переоптимизированный анкорный профиль — классический триггер пессимизации.

Заблуждение. «Чем больше точных анкоров, тем сильнее связь страницы с запросом.» Связь растёт сублинейно и упирается в потолок, а сверх потолка профиль становится подозрительным. Накрутка анкоров — это попытка докричаться там, где система специально приглушила громкость одинаковых голосов.

Миф 3. Мета-тег keywords

Тезис мифа: «Перечисли все целевые запросы в <meta name="keywords"> — и система поймёт, о чём страница.»

Это полностью мёртвый рычаг с исторической причиной. Мета-кейворды были невидимым для пользователя полем, которое автор заполнял сам про себя. Сигнал, который автор декларирует о себе и который не виден посетителю, не несёт информации о реальном содержании — его слишком дёшево фальсифицировать. Поэтому индексаторы перестали учитывать это поле в скоринге десятилетия назад.

Интуиция. Любой сигнал, который (а) автор полностью контролирует, (б) бесплатен в производстве и (в) не виден пользователю, — кандидат на обнуление. Мета-кейворды — чистейший пример: вес слота строго ноль. Заполнять его не вредно (и не штрафно), но и совершенно бесполезно для ранжирования.

Внимание. Не путайте meta keywords (мёртв) с <title>, meta description и заголовками <h1> — последние видны пользователю (в выдаче или на странице) и влияют косвенно: title/description формируют сниппет → влияют на CTR → влияют на поведенческий сигнал (Модуль 11). Мёртв именно невидимый декларативный тег.

Миф 4. Плотность ключевиков (keyword density)

Тезис мифа: «Держи плотность ключевого слова на уровне 5–7% — это оптимальная релевантность.»

Это самый живучий миф, и он опровергается прямо формулой BM25 из Модуля 6. Вклад частоты термина (tf) насыщается:

Код: Выделить всё

вклад(t) = tf·(k1 + 1) / (tf + k1·(1 − b + b·|d|/avgdl))

При росте tf выражение асимптотически стремится к (k1 + 1), то есть выходит на плато. Разница между 1 и 2 вхождениями велика; между 20 и 40 — почти нулевая. «Плотность 7%» не существует как целевая величина в скоринге: модель смотрит на насыщенный tf с нормировкой на длину документа (b·|d|/avgdl), а не на процент.

Пример. Документ A: слово «гидрокостюм» встречается 3 раза в осмысленном тексте на 600 слов. Документ B: то же слово 45 раз, текст ради плотности раздут и нечитаем. По BM25 их tf-вклад почти одинаков (оба на плато), но нормировка длины штрафует раздутый B, а антиспам-классификатор (Модуль 16) видит в B аномальное распределение терминов (keyword stuffing) и понижает его. Итог: переспам не поднял A над B — он утопил B.

SEO-врезка. Забудьте про «плотность». Правильная цель — полнота покрытия интента: упомянуть сущности и подтемы, которые ожидаются для этого запроса (это и есть текстовая близость в широком смысле, Модуль 6 и нейропредставления Модуля 10), и сделать текст читаемым для человека, который потом даст вам долгий клик (Модуль 11). Плотность — метрика из эпохи, когда tf был линейным; этой эпохи нет.

Сводка: куда целят мёртвые рычаги

Код: Выделить всё

Миф                   |  Целевой слот              |  Что его обесценивает                                |  Статус
----------------------+----------------------------+------------------------------------------------------+--------------------
Покупные ссылки       |  PageRank (Модуль 7)       |  очистка графа, обнуление рёбер, санкции (М. 16)     |  мёртв → штрафной
Анкорная накрутка     |  анкор-текст (Модуль 7)    |  демпфирование, анкорный профиль, санкции (М. 16)    |  насыщен → штрафной
Мета-кейворды         |  поле keywords (Модуль 4)  |  обнулён индексатором (самодекларация)               |  полностью мёртв
Плотность ключевиков  |  tf (Модуль 6)             |  насыщение BM25, нормировка длины, антиспам (М. 16)  |  насыщен → штрафной

Частые заблуждения

Заблуждение. «Если приём раньше работал — он всё ещё чуть-чуть помогает.» Нет. Приёмы, которые легко накрутить, — первые, которые система обнуляет или превращает в ловушку. «Чуть-чуть помогает» — это обычно ошибка атрибуции: рост был от чего-то другого (контент, поведение), а заслугу приписали покупным ссылкам.

Заблуждение. «Мета-кейворды хотя бы не вредят, значит, можно их забить под завязку — вдруг.» Сами по себе они нейтральны, но их забивка часто коррелирует с другими спам-паттернами, по которым обучается классификатор; вы добровольно подкидываете антиспаму признак «авторский профиль склонен к манипуляции».

Лаба / практика

Аудит мёртвых рычагов. Возьмите 3 реальные страницы из топ-5 по любому информационному запросу и 3 страницы из «подвала» выдачи (позиции 40+). Для каждой: (1) посчитайте плотность главного ключа и tf ключа; (2) оцените анкорный профиль по доступным внешним данным (хотя бы брендовые/небрендовые); (3) проверьте наличие meta keywords. Постройте таблицу. Ожидаемый результат: вы увидите, что плотность и наличие meta keywords не коррелируют с позицией, а у «подвальных» страниц чаще встречается переспам. Время ~50 мин. Критерий «сделано»: таблица заполнена, сформулирован вывод о слабой/обратной корреляции, для каждого мифа указан обесценивающий его модуль.

Контрольные вопросы

Запишите формулу «ожидаемой отдачи» приёма и объясните, какой её множитель обнуляет покупную ссылку, а какой — мета-кейворды.
Почему вклад tf в BM25 выходит на плато? Что это значит для «оптимальной плотности 7%»?
Чем «фактор перестал работать» отличается от «фактор стал штрафным»? Приведите по одному примеру.
Почему мета-тег keywords обнулён, а <title> — нет, хотя оба контролируются автором?
Как система отличает естественный анкорный профиль от накрученного? Назовите 2–3 признака.
Сайт закупил ссылки и через месяц вырос. Какие альтернативные объяснения роста нужно исключить, прежде чем приписывать заслугу ссылкам?
Почему дешевизна подделки сигнала — главный предиктор того, что слот будет обнулён?

Глава 20.2. Работающие рычаги (средний)

Цели обучения

После главы студент сможет:

Сформулировать главный принцип: весят те рычаги, которые дорого подделать, потому что дешёвую подделку система ловит или обнуляет.
Объяснить, почему удовлетворение интента, измеренное поведением (Модуль 11), — самый сильный и наименее накручиваемый рычаг.
Перечислить работающие рычаги и связать каждый с профильным модулем: текстовая близость (6, 10), свежесть где нужна (11, 17), отсутствие спам-сигналов (16), техническое здоровье (2, 3, 4, 15).
Различать «свежесть как фактор» и «свежесть всегда» — почему обновление помогает только в свежесто-зависимых запросах.
Спроектировать стратегию оптимизации, целящую в живые слоты, а не в мёртвые.

Конспект

Если мёртвые рычаги — это попытка дёшево подделать дешёвый сигнал, то работающие рычаги — это инвестиции в сигналы, которые дороги в подделке именно потому, что отражают реальную ценность для пользователя. Перечислим их по убыванию веса и стойкости к манипуляции.

Рычаг 1. Удовлетворение интента (поведение) — самый сильный

Поведенческий сигнал (Модуль 11) — это коллективное «голосование» миллионов независимых пользователей: на что кликнули, как долго пробыли (dwell-time), вернулись ли назад (pogo-sticking), переформулировали ли запрос. Он весит больше всего и хуже всего поддаётся накрутке по двум причинам, разобранным ниже.

Интуиция. Текст и ссылки производит владелец ресурса — значит, их можно подделать. Поведение производят чужие, независимые люди — чтобы его подделать, надо сымитировать правдоподобное массовое человеческое поведение, распределённое по устройствам, сетям и времени. Это на порядки дороже и заметнее.

Почему поведение трудно накрутить (ключевой тезис модуля):

Самоликвидация сигнала. Можно купить клики на свой результат, но нельзя заставить тысячи реальных людей не возвращаться с плохой страницы. Если страница не отвечает интенту, накрутка кликов лишь нагонит трафик, который тут же отскочит (короткие клики, возврат на выдачу) — а это понижающий сигнал. Накрутка верхней половины метрики (клик) усиливает нижнюю (неудовлетворённость).
Обнаружимость аномалий. Естественное поведение — шумное, разнообразное распределение. Накрутка даёт всплески с узкого пула устройств/подсетей, неестественно стабильный dwell-time, отсутствие «потерь» и переформулировок — ровно те аномалии, что ищет антиспам (Модуль 16).
Демпфирование длинными окнами. Агрегаты считаются на длинных горизонтах (90/365/730+ дней) с затуханием; чтобы сдвинуть двухлетний агрегат, аномалию надо держать долго — дорого и заметно.

SEO-врезка. Единственная устойчивая стратегия по поведению — честно заработать долгий клик: страница должна решать задачу пользователя сразу, без кликбейта в title. Кликбейт даёт всплеск кликов и обвал dwell-time — худшую комбинацию. Оптимизация под поведение = оптимизация под реальную полезность. Это не лазейка, это и есть работа.

Рычаг 2. Текстовая близость (а не плотность)

Живой текстовый рычаг — не плотность ключа, а семантическое покрытие интента: присутствие нужных сущностей, подтем и формулировок, которые система ожидает увидеть для данного запроса. Опирается на BM25/насыщение (Модуль 6) и на нейропредставления — плотные эмбеддинги, ловящие смысл, а не точное вхождение (Модуль 10).

Пример. Запрос «как выбрать беговые кроссовки». Слабая страница 30 раз повторяет «беговые кроссовки». Сильная — раскрывает пронацию, амортизацию, дроп, тип покрытия, размерность. Вторая выигрывает не по tf, а по покрытию подтем (нейромодель видит близость к интенту) и по поведению (читатель находит ответ и не отскакивает).

Рычаг 3. Свежесть — где она нужна

Свежесть (freshness) — фактор (Модули 8, 17), но условный: он включается для свежесто-зависимых запросов (новости, цены, «лучшее в 2026», расписания) и почти не работает для вечнозелёных («теорема Пифагора»). Запросо-зависимость свежести оценивается самой системой по поведению (для каких запросов люди предпочитают новое — Модуль 11).

Заблуждение. «Надо постоянно менять дату публикации и чуть-чуть редактировать — система любит свежее.» Косметическое «обновление» без реальных изменений контента не даёт свежести: системы сравнивают существенность правок. А для вечнозелёного запроса свежесть и не нужна — там весит накопленный авторитет и поведение. Манипуляция датой — потенциальный спам-признак.

Рычаг 4. Отсутствие спам-сигналов (гигиена)

Часто сильнейший прирост даёт не «добавить плюс», а убрать минус: снять переспам, замаскированный текст (cloaking), агрессивную рекламу-перекрытие, навязчивые попапы, тонкий/дублированный контент (thin content). Каждый такой минус — понижающий множитель из Модуля 16. Гигиена возвращает ресурс к его «честному» скору.

Инженерная заметка. Понижающие множители часто мультипликативны: один тяжёлый спам-сигнал может обнулить весь выигрыш от хорошего контента и ссылок. Поэтому аудит на спам-сигналы — первый шаг оптимизации, до любого наращивания.

Рычаг 5. Техническое здоровье

Чтобы все остальные рычаги вообще сработали, документ должен быть обойден, корректно каноникализирован и проиндексирован: доступность для планировщика обхода (Модуль 2), отсутствие дублей и правильные канонические URL (Модуль 3), индексируемость (Модуль 4), отсутствие конфликта со схлопыванием по хосту на выдаче (Модуль 15). Это фундамент — ему посвящена глава 20.3.

Сводка: живые рычаги

Код: Выделить всё

Рычаг                               |  Профильный модуль  |  Почему стоек к накрутке
------------------------------------+---------------------+----------------------------------------------------------------
Удовлетворение интента (поведение)  |  11                 |  производят чужие люди; самоликвидация подделки; аномалии видны
Текстовая близость (покрытие)       |  6, 10              |  требует реального осмысленного контента
Свежесть (где нужна)                |  8, 11              |  требует *существенных* обновлений; запросо-зависима
Отсутствие спам-сигналов            |  16                 |  снятие штрафа = возврат честного скора
Техническое здоровье                |  2, 3, 4, 15        |  предусловие, без него остальное не считается

Частые заблуждения

Заблуждение. «Поведение можно накрутить ботами, значит, это тоже подделываемый сигнал.» Накрутить можно клик (a), но не удовлетворённость (s). Реальных людей нельзя заставить не возвращаться с плохой страницы, а ботам неоткуда взять правдоподобное распределение поведения. Подделка обнаружима и самоликвидируется (Модуль 11, 16).

Заблуждение. «Если я закрою все технические минусы, я попаду в топ.» Техническое здоровье — необходимое, но не достаточное условие. Оно открывает дверь к ранжированию; внутри двери всё равно выигрывает тот, кто лучше удовлетворяет интент.

Лаба / практика

Карта рычагов для одного запроса. Выберите один коммерческий и один информационный запрос. Для каждого: (1) определите, свежесто-зависим ли он (по составу топа — много ли свежих дат); (2) для топ-3 оцените покрытие подтем интента (составьте список ожидаемых сущностей и отметьте, кто их покрывает); (3) сформулируйте гипотезу, какой рычаг разделяет топ-3 и позиции 10–15. Ожидаемый результат: вывод, что топ чаще отличается покрытием интента и (косвенно) поведением, а не плотностью/ссылками. Время ~60 мин. Критерий «сделано»: для обоих запросов заполнена карта рычагов, каждый рычаг привязан к модулю, сформулирована проверяемая гипотеза.

Контрольные вопросы

Сформулируйте, почему поведение — самый весомый и одновременно наименее накручиваемый сигнал. Приведите три механизма защиты.
Что значит «самоликвидация сигнала» при накрутке кликов? Какой подсигнал разоблачает накрутку?
Чем «текстовая близость» отличается от «плотности ключевиков»? На какие модули она опирается?
Для каких запросов свежесть работает, а для каких — почти нет? Кто и как это определяет?
Почему «убрать минус» (спам-сигнал) часто эффективнее, чем «добавить плюс»?
Почему техническое здоровье — необходимое, но не достаточное условие?
Как кликбейтный title может ухудшить позицию, хотя поднимает CTR?

Глава 20.3. Технические ограничения для оптимизатора (средний)

Цели обучения

После главы студент сможет:

Объяснить схлопывание по хосту (Модуль 15) и почему нельзя «занять топ целиком» одним доменом.
Учитывать предельную глубину выдачи: позиции за пределами первых страниц практически не приносят трафика.
Диагностировать проблемы дублей и каноникализации (Модуль 3), которые «размазывают» сигналы между URL.
Управлять краулинговым бюджетом (crawl budget, Модуль 2): не дать роботу тратить обходы на мусор.
Составить чек-лист технического здоровья, открывающего путь остальным рычагам.

Конспект

Даже идеальный контент проигрывает, если упирается в техническое устройство системы. Оптимизатор обязан знать четыре ограничения, заложенные в конвейер.

Ограничение 1. Схлопывание по хосту (host collapsing)

На выдаче система ограничивает число результатов с одного хоста/домена (eTLD+1), чтобы не отдавать всю страницу одному владельцу (Модуль 15). «Лишние» результаты с того же домена сворачиваются, переносятся вниз или отбрасываются.

SEO-врезка. Стратегия «сделаю 10 страниц под один запрос, чтобы занять весь топ» обречена: схлопывание оставит 1–2. Лучше одна сильная страница на интент, чем десять конкурирующих между собой (внутренняя каннибализация). Несколько страниц под близкие запросы должны чётко различаться по интенту, иначе они делят сигналы и схлопываются.

Внимание. Поддомены и поддиректории по-разному трактуются разными системами при схлопывании, но попытка раздробить контент по доменам ради обхода схлопывания — серый приём, граничащий с doorway-сетями (Модуль 16).

Ограничение 2. Предельная глубина выдачи

Распределение трафика по позициям — резко убывающее: первые несколько органических позиций забирают подавляющую долю кликов, а всё, что за первой-второй страницей, получает околонулевой трафик. Более того, система обычно не отдаёт бесконечную выдачу: глубина результатов технически ограничена (топ-N).

Интуиция. «Я на 50-й позиции, надо подняться до 40-й» — почти бессмысленная цель: и 50-я, и 40-я лежат в зоне нулевого трафика. Осмысленная борьба идёт за переход в первую страницу и далее вверх по ней. Разница между позицией 11 и 8 ценнее, чем между 45 и 30.

Ограничение 3. Дубли и каноникализация

Каноникализация (Модуль 3) сводит множество URL одного контента к одному каноническому. Если оптимизатор плодит дубли (параметрические URL, http/https, www/без-www, слэш/без-слэша, пагинация, фасеты фильтров), сигналы (ссылки, поведение) размазываются между версиями, и ни одна не накапливает достаточно веса.

Пример. Один товар доступен по ?color=red&sort=price, ?sort=price&color=red, /red/ и /product/123. Внешние ссылки распределились по четырём URL поровну. Каждая версия имеет ¼ ссылочного веса; система выбирает каноническую сама — возможно, не ту, что вы хотели. Решение: один канонический URL + rel=canonical с дублей + редиректы → сигналы консолидируются.

Инженерная заметка. Подсказки каноникализации (rel=canonical, редиректы 301, консистентные внутренние ссылки, sitemap) — это подсказки, а не приказы: система может выбрать другой канонический URL, если ваши сигналы противоречивы. Консистентность всех подсказок — ключ (Модуль 3).

Ограничение 4. Краулинговый бюджет (crawl budget)

Планировщик обхода (Модуль 2) выделяет каждому хосту ограниченный темп и объём обхода — функцию от вместимости сервера (crawl rate) и спроса (crawl demand: насколько контент важен/свежеет). Если бюджет тратится на мусор (бесконечные фасетные URL, календарные ловушки, дубли, мягкие 404, цепочки редиректов), важные страницы обходятся редко или не обходятся вовсе — и тогда никакой контент не сработает, его просто нет в индексе.

SEO-врезка. Управление бюджетом — чисто техническая работа: закрыть в robots/через noindex мусорные параметрические URL, убрать ловушки обхода, ускорить ответ сервера, чистить цепочки редиректов и битые ссылки, держать актуальный sitemap. Цель — чтобы робот тратил обход на ценные страницы. Для маленького сайта бюджет почти не ограничение; для крупного (миллионы URL) — критичен.

Чек-лист технического здоровья

Код: Выделить всё

[ ] Один канонический URL на единицу контента (rel=canonical, 301, консистентные ссылки)
[ ] Нет размножения дублей (параметры, www/non-www, http/https, слэши) — нормализованы
[ ] Важные страницы доступны планировщику обхода (не закрыты robots/noindex по ошибке)
[ ] Бюджет обхода не утекает на ловушки (фасеты, календари, бесконечная пагинация)
[ ] Нет цепочек редиректов и мягких 404
[ ] Корректная пагинация/фасеты; sitemap актуален
[ ] Один интент — одна страница (нет внутренней каннибализации под схлопывание)
[ ] Скорость и доступность сервера достаточны (влияет на crawl rate и на поведение)

Частые заблуждения

Заблуждение. «Чем больше у меня страниц в индексе, тем лучше.» Наоборот: тонкие и дублирующиеся страницы разбавляют сигналы, жгут краулинговый бюджет и тянут вниз оценку хоста (Модуль 16). Лучше меньше, но сильных.

Заблуждение. rel=canonical гарантированно склеит мои дубли.» Это подсказка, а не команда. При противоречивых сигналах (canonical указывает на A, а все ссылки и sitemap — на B) система выберет сама. Нужна консистентность всех сигналов каноникализации.

Лаба / практика

Технический аудит и план консолидации. Возьмите учебный сайт (или свой). (1) Найдите хотя бы 3 группы дублей (варианты URL одного контента). (2) Проверьте rel=canonical, редиректы, наличие в индексе. (3) Найдите потенциальные ловушки обхода (параметрические/фасетные URL). (4) Составьте план: какие URL канонизировать, что закрыть от обхода, где убрать каннибализацию. Ожидаемый результат: план консолидации сигналов на канонические URL и освобождения краулингового бюджета. Время ~70 мин. Критерий «сделано»: найдены дубли и ловушки, для каждой группы предложено решение со ссылкой на Модуль 2/3/15.

Контрольные вопросы

Что такое схлопывание по хосту и почему стратегия «занять весь топ одним доменом» не работает?
Почему подъём с позиции 50 на 40 — почти бесполезная цель? Где проходит граница осмысленной борьбы?
Как дубли «размазывают» ссылочный и поведенческий сигнал? Как это исправить?
Чем rel=canonical отличается от 301-редиректа? Почему оба — лишь подсказки?
От чего зависит краулинговый бюджет хоста (Модуль 2)? Что значит «бюджет утекает»?
Почему «больше страниц в индексе» может ухудшить ранжирование?
Что такое внутренняя каннибализация и как она взаимодействует со схлопыванием по хосту?

Глава 20.4. Белые/серые/чёрные методы; риски, пессимизации и санкции; этика (средний)

Цели обучения

После главы студент сможет:

Классифицировать методы оптимизации по шкале белый → серый → чёрный и обосновать критерий разделения.
Различать виды санкций: алгоритмическое понижение (автоматическое) и ручную пессимизацию; объяснить их разную природу.
Оценить риск метода через ожидаемую отдачу с учётом вероятности и тяжести санкции.
Связать каждый чёрный приём с механизмом обнаружения из Модуля 16.
Сформулировать этическую и бизнес-аргументацию против чёрных методов помимо страха санкций.

Конспект

Шкала методов и критерий разделения

Граница проходит не по «разрешено/запрещено» абстрактно, а по намерению и адресату:

Код: Выделить всё

Класс               |  Критерий                                                                                 |  Примеры                                                                                                                                |  Риск
--------------------+-------------------------------------------------------------------------------------------+-----------------------------------------------------------------------------------------------------------------------------------------+-----------------------------------------------------------
Белые (white hat)   |  оптимизация для *пользователя*; система лишь распознаёт качество                         |  качественный контент под интент, техническое здоровье, скорость, осмысленная перелинковка, честные title/сниппеты                      |  минимальный
Серые (gray hat)    |  формально не запрещено, но эксплуатирует серые зоны; адресат — система, не пользователь  |  агрессивный гостевой постинг ради ссылок, «обмен» ссылками, лёгкая накрутка, дроблёные домены под запросы, спинтекст низкого качества  |  средний; правила меняются — серое легко становится чёрным
Чёрные (black hat)  |  прямой обман системы и/или пользователя                                                  |  cloaking, doorway-страницы, скрытый текст/ссылки, PBN и покупные сети, накрутка поведенческих, взлом чужих сайтов ради ссылок          |  высокий; адресная санкция

Интуиция. Простой тест: «Сделал бы я это, если бы поисковых систем не существовало?» Если приём имеет смысл только чтобы обмануть алгоритм (а не помочь пользователю) — это серое или чёрное. Белый метод полезен пользователю даже без поиска.

Почему чёрные методы целят в мёртвые/обнуляемые слоты

Это сквозной тезис курса. Чёрная оптимизация почти всегда атакует именно те сигналы, которые система уже научилась нейтрализовать, потому что они исторически были дёшевы для накрутки:

Покупные ссылки и PBN → граф очищается, рёбра обнуляются (Модуль 7), сети классифицируются как спам (Модуль 16). Слот мёртв/штрафной.
Скрытый текст / keyword stuffing → tf насыщен (Модуль 6), распределение терминов аномально → антиспам (Модуль 16). Слот насыщен/штрафной.
Cloaking (показ роботу одного, пользователю другого) → сверяется рендер для робота и пользователя; расхождение — тяжёлый штрафной сигнал (Модуль 16).
Накрутка поведенческих → подделать клик можно, удовлетворённость — нет; аномалии видны, сигнал самоликвидируется (Модуль 11, 16).

Заблуждение. «Чёрные методы работают, просто их надо делать аккуратно.» Они дают временный всплеск ровно до момента переобучения классификаторов или ручной проверки. Ожидаемая стоимость с учётом тяжести санкции (вплоть до полного исключения хоста) почти всегда отрицательна. Вы соревнуетесь с системой, у которой больше данных, времени и стимула вас поймать.

Виды санкций

Алгоритмическое понижение (automatic demotion). Классификаторы и понижающие множители (Модуль 16) применяются автоматически и постоянно. Чаще всего — мультипликативный штраф к скору хоста/страницы. Снимается само, когда устранена причина и система переоценила ресурс (иногда с задержкой).
Ручная пессимизация (manual action). Назначается асессором/командой качества при грубом нарушении. Может быть тяжелее и требует явного запроса на пересмотр после исправления. Восстановление дольше и не гарантировано.

Внимание. Санкция может быть частичной (на раздел/тип страниц/набор запросов) или хостовой (на весь домен). Покупка ссылок одной командой может утопить весь бренд, включая разделы, которые ничего не нарушали. Риск не локализуется.

Инженерная заметка. С точки зрения системы санкция — это не «наказание», а коррекция оценки: классификатор оценил вероятность манипуляции и понизил доверие. Поэтому «снятие санкции» = устранение признаков, на которые сработал классификатор, а не «договориться». Понимание этого избавляет от мифа о «секретной кнопке прощения».

Этика и бизнес-аргумент (помимо страха)

Аргумент против чёрных методов не сводится к «поймают». Есть три более глубоких причины:

Экономическая. Чёрная оптимизация — гонка вооружений с растущей стоимостью и падающей отдачей; ресурс, вложенный в обман, не создаёт актива. Белый контент — актив, который работает годами.
Риск-менеджмент. Бизнес, чей трафик держится на нарушении, живёт на пороховой бочке: одно обновление классификатора обнуляет канал.
Этическая. Cloaking, скрытый текст, накрутка вредят пользователю (он получает не то, что искал) и искажают общий рынок выдачи. Курс стоит на принципе: оптимизация легитимна ровно настолько, насколько она совпадает с интересом пользователя.

SEO-врезка. Здоровая ментальная модель: вы не оптимизируете «под алгоритм», вы оптимизируете под пользователя, а алгоритм — это (несовершенный) измеритель пользы. Все работающие рычаги из главы 20.2 — это просто разные способы реально быть полезным. Все мёртвые из 20.1 и чёрные из 20.4 — способы притвориться полезным, которые система научилась распознавать.

Частые заблуждения

Заблуждение. «Серые методы безопасны, ведь они не запрещены явно.» Серая зона определяется текущими правилами и классификаторами; она сужается со временем. То, что было серым вчера, становится чёрным после очередного обновления — и санкция может прилететь задним числом по уже накопленным признакам.

Заблуждение. «Если меня понизили алгоритмически, я ничего не могу сделать.» Можете: устраните признаки, на которые сработал классификатор (Модуль 16), и дождитесь переоценки. Алгоритмическое понижение обратимо устранением причины; это отличает его от тяжёлой ручной пессимизации.

Лаба / практика

Шкала риска и разбор кейсов. Дан список из 8 приёмов (например: гостевая статья с естественной ссылкой; обмен ссылками «ты мне — я тебе»; покупка ссылок на бирже; cloaking версии для робота; дроблёные домены под гео-запросы; накрутка кликов ботами; обновление вечнозелёного гайда новыми данными; скрытый белый текст на белом фоне). Для каждого: (1) класс (белый/серый/чёрный); (2) целевой слот и обесценивающий его модуль; (3) тип вероятной санкции; (4) применить тест «делал бы без поиска?». Ожидаемый результат: таблица 8×4 с обоснованием. Время ~55 мин. Критерий «сделано»: для каждого приёма указан класс, слот, модуль обнаружения и тип санкции; тест применён последовательно.

Контрольные вопросы

Сформулируйте критерий разделения белых/серых/чёрных методов через намерение и адресата. Что показывает тест «делал бы без поиска»?
Почему чёрные методы почти всегда целят в мёртвые/обнуляемые слоты? Дайте два примера с модулями.
Чем алгоритмическое понижение отличается от ручной пессимизации по природе, тяжести и обратимости?
Почему санкция может ударить по всему домену, а не только по нарушающему разделу?
Как работает cloaking и почему он — тяжёлый штрафной сигнал (Модуль 16)?
Приведите три аргумента против чёрных методов помимо «поймают».
Почему серая зона со временем сужается, и чем это опасно для долгосрочной стратегии?
Объясните тезис «алгоритм — несовершенный измеритель пользы» и его следствие для стратегии оптимизации.

Итоги модуля

Оптимизатор влияет на систему только косвенно — через контент, структуру и пользовательский опыт. Прямого доступа к стадиям конвейера нет; все рычаги опосредованы.
Мёртвый рычаг — приём, целевой слот которого обнулён, насыщен или перекрыт защитой. Покупные ссылки (граф очищается, Модуль 7), анкорная накрутка (демпфирование, Модуль 7/16), мета-кейворды (обнулены индексатором), плотность ключевиков (насыщение BM25, Модуль 6) — все они бьют в пустоту, а при переспаме переходят в штраф.
Манипуляции бьют именно по обнуляемым слотам не случайно: система раньше всего нейтрализует то, что дёшево подделать. Дешевизна подделки — предиктор обнуления слота.
Самый весомый и наименее накручиваемый рычаг — удовлетворение интента, измеренное поведением (Модуль 11). Накрутить можно клик, но не удовлетворённость: подделка обнаружима, самоликвидируется (короткие клики/возврат) и демпфируется длинными окнами.
Живые рычаги: поведение (11), текстовая близость и покрытие интента (6, 10), условная свежесть (8, 11), отсутствие спам-сигналов (16), техническое здоровье (2, 3, 4, 15). Все они — способы реально быть полезным.
Технические ограничения формируют потолок: схлопывание по хосту (нельзя занять топ одним доменом, Модуль 15), предельная глубина выдачи (борьба осмысленна только за первую страницу), дубли/каноникализация (дубли размазывают сигналы, Модуль 3), краулинговый бюджет (мусор крадёт обход важных страниц, Модуль 2).
Методы делятся на белые/серые/чёрные по намерению и адресату. Чёрные целят в мёртвые слоты и обнаруживаются (Модуль 16); санкции бывают алгоритмическими (обратимы устранением причины) и ручными (тяжелее, требуют пересмотра) и могут быть хостовыми.
Главное: правильная ментальная модель — оптимизировать под пользователя, а не под алгоритм; алгоритм лишь (несовершенно) измеряет пользу. Все работающие рычаги совпадают с реальной полезностью; все мёртвые и чёрные — это попытки её сымитировать, которые система научилась распознавать.

Глоссарий модуля

Мёртвый рычаг — приём оптимизации, целевой слот которого обнулён, насыщен или перекрыт защитой; ожидаемая отдача ≈ 0 или отрицательна.
Покупные ссылки (paid links) — внешние ссылки, приобретённые ради PageRank; обнаруживаются как неестественные паттерны графа и обнуляются/штрафуются.
Ссылочная сеть (PBN, private blog network) — сеть подконтрольных доменов, ссылающихся на целевой ресурс; классический объект антиспам-классификации графа.
Анкорный профиль (anchor profile) — распределение текстов ссылок на ресурс; переоптимизированный (доля точных коммерческих вхождений) — спам-признак.
Keyword stuffing (переспам ключевиками) — искусственное завышение частоты термина; бесполезно из-за насыщения BM25 и штрафно по антиспаму.
Плотность ключевиков (keyword density) — доля вхождений ключа в тексте; устаревшая метрика, не используемая в скоринге (вклад tf насыщается).
Мета-тег keywords — невидимое самодекларативное поле ключевых слов; полностью игнорируется в ранжировании.
Удовлетворение интента (intent satisfaction) — степень, в которой результат решает задачу пользователя; измеряется поведением (dwell-time, отсутствие возврата).
Самоликвидация сигнала — свойство накрутки кликов усиливать противоположный (понижающий) подсигнал — короткие клики и возврат с плохой страницы.
Свежесть (freshness) — фактор актуальности; включается запросо-зависимо для свежесто-чувствительных запросов.
Схлопывание по хосту (host collapsing) — ограничение числа результатов с одного домена (eTLD+1) на выдаче.
Внутренняя каннибализация (cannibalization) — конкуренция собственных страниц за один интент, размывающая сигналы и усугубляемая схлопыванием.
Предельная глубина выдачи — техническое ограничение числа отдаваемых результатов (топ-N) и резко убывающее распределение трафика по позициям.
Каноникализация (canonicalization) — сведение дублирующих URL к одному каноническому; rel=canonical, 301 — подсказки, не приказы.
Краулинговый бюджет (crawl budget) — ограниченный объём/темп обхода хоста как функция вместимости сервера и спроса; утекает на мусорные URL.
Ловушка обхода (crawl trap) — структура (фасеты, календари, бесконечная пагинация), порождающая бесконечно много URL и пожирающая бюджет обхода.
Cloaking (клоакинг) — показ роботу и пользователю разного контента; тяжёлый штрафной сигнал.
Doorway-страница (дорвей) — страница, созданная исключительно под запрос для перенаправления на другую; чёрный метод.
Белый/серый/чёрный методы (white/gray/black hat) — классификация приёмов по намерению и адресату (пользователь vs обман системы).
Алгоритмическое понижение (automatic demotion) — автоматический понижающий множитель к скору; обратим устранением причины.
Ручная пессимизация (manual action) — санкция, назначаемая командой качества; тяжелее, требует запроса на пересмотр после исправления.

Связи с другими модулями

Опирается на Модуль 6 (текстовая релевантность) — насыщение tf в BM25 и нормировка длины объясняют смерть «плотности ключевиков» и переход переспама в штраф.
Опирается на Модуль 7 (ссылочный граф) — очистка графа, обнуление рёбер, демпфирование анкоров и анкорный профиль обесценивают покупные ссылки и анкорную накрутку.
Опирается на Модуль 8 (факторы ранжирования) — таксономия факторов задаёт «слоты», свежесть как условный фактор; показывает, какие слоты весят, а какие обнулены.
Опирается на Модуль 11 (поведенческие сигналы) — центральный тезис: поведение весит больше всего и труднее всего накручивается (самоликвидация, аномалии, длинные окна).
Опирается на Модуль 15 (группировка и разнообразие) — схлопывание по хосту ограничивает захват выдачи; борьба с внутренней каннибализацией.
Опирается на Модуль 16 (антиспам) — все санкции, понижающие множители, обнаружение клоакинга/переспама/накрутки берутся отсюда; объясняет, почему манипуляции переходят в штраф.
Использует Модуль 2 (обход) — краулинговый бюджет, ловушки обхода, доступность важных страниц.
Использует Модуль 3 (каноникализация) — консолидация сигналов на канонические URL, борьба с дублями.
Использует Модуль 4 (индексирование) — индексируемость как предусловие; обнуление мёртвых полей вроде мета-keywords.
Использует Модуль 10 (нейропоиск) — текстовая близость как семантическое покрытие интента, а не точные вхождения.

Материалы для углубления

Обзорные работы по веб-спаму и противодействию ему (web spam taxonomy: link spam, content spam, cloaking) — на уровне принципов.
Классические работы по доверию в ссылочном графе (TrustRank и родственные подходы к понижению доверия к спам-узлам).
Литература по насыщению частоты термина в вероятностных моделях IR (BM25) как теоретическое обоснование бесполезности keyword density.
Обзоры по поведенческим сигналам и их устойчивости к манипуляции (bias-снятие, аномалии накрутки) — на уровне принципов.
Материалы по управлению обходом крупных сайтов (crawl budget, обработка фасетов и параметрических URL, ловушки обхода).
Практические руководства по технической оптимизации (каноникализация, дубли, пагинация, sitemap) — обобщённо, без привязки к конкретным платформам.
Этика поисковой оптимизации: соотношение интересов пользователя, владельца ресурса и оператора системы.

archnerd · Сообщение **archnerd** » 11 июн 2026, 00:09

вопрос по тексту: если модуль про факторы это синтез всего курса, то как тут расставлять приоритеты? мы убили месяц на вылизывание тайтлов и мета, а реальный буст дал только нормальный внутренний линкинг под PageRank. с факторов контента почти ноль сдвинулось

LinuxKun · Сообщение **LinuxKun** » 13 июн 2026, 12:59

у нас на проде давно заметили что BM25 это не про плотность ключей, а про то что term frequency насыщается. напихали слово 15 раз в абзац - вообще не помогло, а вот когда раскидали по релевантным разделам и добавили синонимов, по длинному хвосту поехало вверх

sleepytoaster

наконец дошло почему dwell-time для seo важнее чем сам факт клика. мы режем выдачу на pogo-sticking, и когда человек вернулся в выдачу через 3 секунды это сигнал что страница мусор. оптимизация под факторы это в первую очередь про то чтобы юзер остался

SEO: оптимизация под факторы

SEO: оптимизация под факторы

Re: SEO: оптимизация под факторы

Re: SEO: оптимизация под факторы

Re: SEO: оптимизация под факторы

Кто сейчас на конференции