Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных

Рейтинг: 20.8% · 3 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
Manchaca
Сообщения: 14
Зарегистрирован: 02 июн 2026, 10:26

Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных

Сообщение Manchaca »

Дано: продуктовый ритейл, около 300 магазинов, 45 тысяч SKU, прогноз спроса на 14 дней вперёд, метрика WAPE. Текущий прод — CatBoost со 120+ фичами (лаги, скользящие агрегаты, промо-флаги, праздники, цены), на А-ассортименте WAPE 23.5%.

Руководство начиталось про foundation-модели для временных рядов и попросило проверить. Прогнал честно, на одинаковых сплитах, бэктест на шести окнах:

- Chronos-Bolt (base), zero-shot: WAPE 31.9%
- TimesFM 2.5 (200M), zero-shot: 29.4%
- TimesFM с дообучением на нашей истории: 26.2%
- AutoTheta из statsforecast (бейзлайн для совести): 29.8%
- наш CatBoost: 23.5%

То есть zero-shot едва обыгрывает классическую тету, дообучение помогает, но до бустинга не дотягивает. Причина очевидна — промо: у нас до 40% выручки идёт через акции, а нормально скормить промо-календарь foundation-модели как ковариату — задача со звёздочкой. Заявленная поддержка ковариат в TimesFM на наших данных вела себя капризно.

Где foundation реально выстрелили — холодный старт. На SKU с историей меньше двух месяцев: Chronos-Bolt 36% WAPE против 51% у бустинга, которому банально не из чего строить лаги. Плюс скорость запуска: zero-shot инференс по всей сети (13.5 млн рядов магазин-SKU) — около часа на одной A100.

Рабочая гипотеза: гибрид — бустинг на А и В ассортименте, foundation на новинках и длинном хвосте. Кто уже возил такое в прод? Как победили промо-ковариаты?
👍1 ❤️2 🔥1 😄 🤔
✔ Лучший ответ сформирован автоматически — roero
@Version, Возили практически такой же гибрид в сети на тысячу с лишним магазинов, расскажу, обо что бились. Промо победили каскадом. Foundation-модель прогнозирует базовый спрос по непромо-истории, а отдельный CatBoost накидывает промо-аплифт как мультипликатор: фичи — тип механики, глубина скидки, размещение, каннибализация соседних SKU. Развязка базы и аплифта дала больше, чем любые попытки зап…
Перейти к ответу →
Аватара пользователя
Version
Сообщения: 68
Зарегистрирован: 11 май 2026, 03:17

Re: Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных

Сообщение Version »

Результат был предсказуем ещё со времён M5: на ритейловских рядах с сильной экзогенкой градиентный бустинг бьёт всё, что не знает про твои промо. Foundation-модели — это про «запуститься за вечер без фичеинжиниринга», и в этой нише они честны.

Единственное — проверь утечки в бэктесте: глобальная нормализация по всему ряду до сплита у любителей трансформеров встречается постоянно и рисует им лишние пару процентов.
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
nixos_andy
Сообщения: 61
Зарегистрирован: 11 май 2026, 03:44

Re: Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных

Сообщение nixos_andy »

@Manchaca, Хороший дизайн эксперимента, тета как бейзлайн — респект, обычно её стыдливо опускают, потому что половина «нейропрогнозов» ей проигрывает.

Два предложения. Первое — иерархическая реконсиляция: вы прогнозируете магазин-SKU напрямую? Прогнозы на уровнях сеть-SKU и категория-магазин с последующей реконсиляцией через MinT на похожей задаче давали нам минус 1.5-2 п.п. WAPE на нижнем уровне почти бесплатно. Второе — для длинного хвоста с перемежающимся спросом сравните ещё с Croston и ADIDA: на рядах, где 80% дней нули, WAPE вообще теряет смысл, считайте лучше стоимость ошибки в деньгах — списания против упущенных продаж.
👍3 ❤️ 🔥 😄 🤔1
Аватара пользователя
roero
Сообщения: 23
Зарегистрирован: 11 май 2026, 05:17

Re: Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных

Сообщение roero »

✔ Лучший ответ — сформирован автоматически
@Version, Возили практически такой же гибрид в сети на тысячу с лишним магазинов, расскажу, обо что бились.

Промо победили каскадом. Foundation-модель прогнозирует базовый спрос по непромо-истории, а отдельный CatBoost накидывает промо-аплифт как мультипликатор: фичи — тип механики, глубина скидки, размещение, каннибализация соседних SKU. Развязка базы и аплифта дала больше, чем любые попытки запихнуть промо-календарь внутрь трансформера. Бонус: коммерция наконец получила отчуждаемую оценку «что даст акция», раньше это сидело в чёрном ящике.

Вторые грабли неожиданные: закупщиков бесила не точность, а нестабильность. Перезапустил пайплайн — заказ на ту же позицию прыгнул на 30%, доверие к системе падает мгновенно, люди возвращаются к экселю. Ввели сглаживание прогноза между запусками и ограничение дельты в 15% без ручного подтверждения — претензии кончились.

Итог за два квартала: списания минус 8-9%, out-of-stock минус 2 п.п. И отдельно поддержу твой вывод: на новинках foundation — это не «чуть лучше», это разница между «есть прогноз» и «закупщик ставит цифру с потолка».
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
chase2
Сообщения: 28
Зарегистрирован: 14 май 2026, 10:31

Re: Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных

Сообщение chase2 »

@nixos_andy, Про экзогенку спрошу: погоду в фичах оставили? У нас она давала чистый шум везде, кроме явных сезонщиков — мороженое, гриль, напитки. А вот календарь СНГ обязателен отдельными флагами: майские, последняя неделя декабря и гендерные праздники ломают любой zero-shot. Chronos новогодний пик стабильно режет как выброс — в его предобучении наших предновогодних закупок гречки не было.
👍2 ❤️1 🔥 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей