В дамп web_production попали метаданные 1923 факторов: имена, теги (TG_*), статусы жизненного цикла и принадлежность к стадиям ранжирования. Это не сами обученные веса и не код модели - веса проприетарны и обучаемы, их в утечке нет. Но метаданных достаточно, чтобы восстановить форму формулы и пропорции групп: какие факторы куда подаются, что давно мертво, а что несёт основную нагрузку. Дальше - именно реконструкция формы, а не точные коэффициенты.
Что прямо говорят теги
Несколько TG-тегов задают каркас всей системы.
- TG_L2 = 1346 факторов. Основное ранжирование - это одна большая модель на стадии L2. Туда стянута почти вся живая логика.
- TG_L3 = 30. Финальный реранк горстки кандидатов. Маленький, но решает порядок в выдаче.
- TG_NN_OVER_FEATURES_USE = 1578. Ключевой сигнал: почти все живые факторы подаются в нейросеть-над-факторами. То есть формула 2026 - это бустинг плюс нейронка над одним общим вектором фич, а не сумма независимых формул.
- TG_TEXT_MACHINE = 471, TG_NEURAL = 309, TG_LINGBOOST = 151. Мощные нейро-текстовые подмодели (DSSM, BERT-дистилляция), которые сами по себе выступают фичами в общем векторе.
- TG_USERFEAT_CLICK_MACHINE = 205, TG_USERFEAT_SEARCH_DWELL_TIME = 164, TG_USERFEAT_90D = 446. Огромный поведенческий пласт с окнами наблюдения до 90 и далее до 1600 дней.
- TG_DEPRECATED = 2117, TG_UNUSED = 521. Больше половины слотов мертвы: классический PageRank, legacy TR/LR, старые кликовые модели.
Архитектура: это каскад, а не одно уравнение
Ранжирование разбито на стадии. На каждой - своя задача и своя цена вычислений.
Код: Выделить всё
L0/L1 отбор кандидатов: обратный индекс + дешёвый текст-матч (BM25-группы)
+ статика хоста -> тысячи URL
L2 ГЛАВНАЯ модель: GBDT (MatrixNet/CatBoost) + Нейросеть-над-факторами
-> скоринг кандидатов
L3 реранк/rearrange: свежесть, разнообразие, дедуп хостов,
гео/персонализация -> финальный топ
Скор на L2 в концептуальной записи
Код: Выделить всё
Score = NNoverFeatures( GBDT( wB*B + wT*T + wQ*Q + wH*H + wA*A ) ) * Mсвеж * Mкоммерц * Mгео/перс
Группа ориентир. доля влияния (иллюстративно, 2026)
-----------------------------------------------------------------
B Поведение ~30-40% досмотр vs отскок, dwell, мобайл, 90-1600-дневные окна
T Нейро-текст ~25-35% DSSM/BERT-эмбеддинги query<->doc + классика BM25/проксимити
Q Запрос<->документ ~8-12% покрытие запроса, IDF, слова запроса в URL
H Хост/владелец ~8-12% доверие/возраст/аудитория хоста, глубина, анти-спам
A Аннотации/ссылки ~5-10% анкоры, тексты переходов, запросы-к-URL, FRC
Важно понимать сам вид формулы. Слагаемые wB*B + ... + wA*A - это не финальный скор, а вход в GBDT, который ловит нелинейности и взаимодействия между группами. Результат бустинга, в свою очередь, идёт в нейросеть-над-факторами. Снаружи всё домножается на модификаторы, переписывающие расклад под класс запроса.Доли влияния здесь иллюстративны. Реальные веса обучаемы и проприетарны - в дампе их нет. Это реконструкция пропорций по числу живых факторов в каждой группе и по силе тегов, а не выгрузка коэффициентов модели.
Модификаторы: один расклад не подходит всем запросам
Множители Mсвеж, Mкоммерц, Mгео/перс и режим холодного старта меняют эффективный вес групп в зависимости от типа запроса.
Код: Выделить всё
Mсвеж - для свежих/новостных запросов резко вверх вес Datetime
и быстрых кликов (RapidClicks); группа Datetime.
Mкоммерц - для коммерческих включается коммерческая релевантность:
DSSM продуктности [772/777/778], CommercialDssm [812],
штраф за переизбыток рекламы; TG_COMMERCIAL ~76 факторов.
Mгео/перс - LOCALIZED_COUNTRY, регион запроса [245/246],
персональная история (стадия L3/rearrange).
ХолодСтарт- запросы без кликовой истории: семейство HasNoQueryShows,
факторы [64/78]. Вес B падает, модель опирается на T и H -
иначе длинный хвост не отранжировать.
Сколько слотов реально живых
Из 1923 факторов web_production по статусам:
Код: Выделить всё
Статус Кол-во Доля
-----------------------------------
Активен 437 ~23%
Устаревший 777
Не реализован 443
Не используется 143
Удалён 115
Не поддерживается 8
-----------------------------------
Итого мёртвых/нерабочих слотов ~77%
Распределение живых факторов по реальным группам:
Код: Выделить всё
Группа Факторов
------------------------
Annotation 133
Query 85
Xref 60
RapidClicks 33
TextBM25 26
RegDocStatic 23
RegHostStatic 17
LegacyTR 12
Domain 10
LinkBM25 9
Datetime 8
LegacyLR 7
BM25F 4
------------------------
Что из этого следует
Ещё раз дисклеймер: всё выше - реконструкция формы и пропорций по метаданным утечки. Конкретные обучаемые веса проприетарны и в дамп не попали; имена факторов и индексы в квадратных скобках приведены как они есть в источнике. Разборы по отдельным группам - ниже.Формула 2026 - это каскад L0/L1 -> L2 -> L3, где основная работа сделана на L2 одной большой моделью: GBDT над общим вектором фич плюс нейросеть-над-факторами. Доминируют поведение и нейро-текст; классическое ссылочное и legacy-текстовое наследие в основном выключено; пропорции переписываются модификаторами под класс запроса, а на холодном старте опора смещается с поведения на текст и хост.
Массовые теги и полные данные
Код: Выделить всё
Тег | Факторов | Доля
--------------------------+------------+------
TG_DYNAMIC | 1154 | 60
TG_DOC | 1150 | 59.8
TG_L2 | 1031 | 53.6
TG_USER | 1019 | 53
TG_DEPRECATED | 999 | 52
TG_NN_OVER_FEATURES_USE | 903 | 47
TG_USER_SEARCH | 900 | 46.8
TG_STATIC | 672 | 34.9
TG_UNDOCUMENTED | 574 | 29.8
TG_USERFEAT | 508 | 26.4
TG_LOCALIZED_COUNTRY | 408 | 21.2
TG_USER_SEARCH_ONLY | 408 | 21.2
TG_DOC_TEXT | 383 | 19.9
TG_ANNOTATION_NOFILTER | 345 | 17.9
TG_TEXT_MACHINE | 330 | 17.2
TG_OFTEN_ZERO | 305 | 15.9
TG_USERFEAT_90D | 259 | 13.5
TG_SAMOHOD_UNIMPLEMENTED | 253 | 13.2
Скачать полную таблицу 1923 факторов (xlsx, 4 листа: Факторы со всеми колонками, Сводка тегов, Группы, Легенда):
images/data/factors_analysis.xlsx
Разборы по группам факторов
Каждая группа из формулы разобрана отдельным тредом:
- Поведение (B), главный вес: viewtopic.php?t=1829
- Текстовая и нейросетевая релевантность (T): viewtopic.php?t=1830
- Соответствие запрос-документ и URL (Q): viewtopic.php?t=1831
- Хост, владелец, статика (H): viewtopic.php?t=1832
- Аннотации, анкоры, ссылки (A): viewtopic.php?t=1833
Практический итог, что реально двигает позиции: viewtopic.php?t=1841