Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных

Manchaca · Сообщение **Manchaca** » 10 июн 2026, 05:46

Дано: продуктовый ритейл, около 300 магазинов, 45 тысяч SKU, прогноз спроса на 14 дней вперёд, метрика WAPE. Текущий прод — CatBoost со 120+ фичами (лаги, скользящие агрегаты, промо-флаги, праздники, цены), на А-ассортименте WAPE 23.5%.

Руководство начиталось про foundation-модели для временных рядов и попросило проверить. Прогнал честно, на одинаковых сплитах, бэктест на шести окнах:

- Chronos-Bolt (base), zero-shot: WAPE 31.9%
- TimesFM 2.5 (200M), zero-shot: 29.4%
- TimesFM с дообучением на нашей истории: 26.2%
- AutoTheta из statsforecast (бейзлайн для совести): 29.8%
- наш CatBoost: 23.5%

То есть zero-shot едва обыгрывает классическую тету, дообучение помогает, но до бустинга не дотягивает. Причина очевидна — промо: у нас до 40% выручки идёт через акции, а нормально скормить промо-календарь foundation-модели как ковариату — задача со звёздочкой. Заявленная поддержка ковариат в TimesFM на наших данных вела себя капризно.

Где foundation реально выстрелили — холодный старт. На SKU с историей меньше двух месяцев: Chronos-Bolt 36% WAPE против 51% у бустинга, которому банально не из чего строить лаги. Плюс скорость запуска: zero-shot инференс по всей сети (13.5 млн рядов магазин-SKU) — около часа на одной A100.

Рабочая гипотеза: гибрид — бустинг на А и В ассортименте, foundation на новинках и длинном хвосте. Кто уже возил такое в прод? Как победили промо-ковариаты?

Version · Сообщение **Version** » 10 июн 2026, 06:23

Результат был предсказуем ещё со времён M5: на ритейловских рядах с сильной экзогенкой градиентный бустинг бьёт всё, что не знает про твои промо. Foundation-модели — это про «запуститься за вечер без фичеинжиниринга», и в этой нише они честны.

Единственное — проверь утечки в бэктесте: глобальная нормализация по всему ряду до сплита у любителей трансформеров встречается постоянно и рисует им лишние пару процентов.

nixos_andy · Сообщение **nixos_andy** » 10 июн 2026, 09:45

@Manchaca, Хороший дизайн эксперимента, тета как бейзлайн — респект, обычно её стыдливо опускают, потому что половина «нейропрогнозов» ей проигрывает.

Два предложения. Первое — иерархическая реконсиляция: вы прогнозируете магазин-SKU напрямую? Прогнозы на уровнях сеть-SKU и категория-магазин с последующей реконсиляцией через MinT на похожей задаче давали нам минус 1.5-2 п.п. WAPE на нижнем уровне почти бесплатно. Второе — для длинного хвоста с перемежающимся спросом сравните ещё с Croston и ADIDA: на рядах, где 80% дней нули, WAPE вообще теряет смысл, считайте лучше стоимость ошибки в деньгах — списания против упущенных продаж.

roero · Сообщение **roero** » 10 июн 2026, 11:31

@Version, Возили практически такой же гибрид в сети на тысячу с лишним магазинов, расскажу, обо что бились.

Промо победили каскадом. Foundation-модель прогнозирует базовый спрос по непромо-истории, а отдельный CatBoost накидывает промо-аплифт как мультипликатор: фичи — тип механики, глубина скидки, размещение, каннибализация соседних SKU. Развязка базы и аплифта дала больше, чем любые попытки запихнуть промо-календарь внутрь трансформера. Бонус: коммерция наконец получила отчуждаемую оценку «что даст акция», раньше это сидело в чёрном ящике.

Вторые грабли неожиданные: закупщиков бесила не точность, а нестабильность. Перезапустил пайплайн — заказ на ту же позицию прыгнул на 30%, доверие к системе падает мгновенно, люди возвращаются к экселю. Ввели сглаживание прогноза между запусками и ограничение дельты в 15% без ручного подтверждения — претензии кончились.

Итог за два квартала: списания минус 8-9%, out-of-stock минус 2 п.п. И отдельно поддержу твой вывод: на новинках foundation — это не «чуть лучше», это разница между «есть прогноз» и «закупщик ставит цифру с потолка».

chase2 · Сообщение **chase2** » 10 июн 2026, 11:35

@nixos_andy, Про экзогенку спрошу: погоду в фичах оставили? У нас она давала чистый шум везде, кроме явных сезонщиков — мороженое, гриль, напитки. А вот календарь СНГ обязателен отдельными флагами: майские, последняя неделя декабря и гендерные праздники ломают любой zero-shot. Chronos новогодний пик стабильно режет как выброс — в его предобучении наших предновогодних закупок гречки не было.

Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных

Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных

Re: Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных

Re: Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных

Re: Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных

Re: Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных

Кто сейчас на конференции