Дано: продуктовый ритейл, около 300 магазинов, 45 тысяч SKU, прогноз спроса на 14 дней вперёд, метрика WAPE. Текущий прод — CatBoost со 120+ фичами (лаги, скользящие агрегаты, промо-флаги, праздники, цены), на А-ассортименте WAPE 23.5%.
Руководство начиталось про foundation-модели для временных рядов и попросило проверить. Прогнал честно, на одинаковых сплитах, бэктест на шести окнах:
- Chronos-Bolt (base), zero-shot: WAPE 31.9%
- TimesFM 2.5 (200M), zero-shot: 29.4%
- TimesFM с дообучением на нашей истории: 26.2%
- AutoTheta из statsforecast (бейзлайн для совести): 29.8%
- наш CatBoost: 23.5%
То есть zero-shot едва обыгрывает классическую тету, дообучение помогает, но до бустинга не дотягивает. Причина очевидна — промо: у нас до 40% выручки идёт через акции, а нормально скормить промо-календарь foundation-модели как ковариату — задача со звёздочкой. Заявленная поддержка ковариат в TimesFM на наших данных вела себя капризно.
Где foundation реально выстрелили — холодный старт. На SKU с историей меньше двух месяцев: Chronos-Bolt 36% WAPE против 51% у бустинга, которому банально не из чего строить лаги. Плюс скорость запуска: zero-shot инференс по всей сети (13.5 млн рядов магазин-SKU) — около часа на одной A100.
Рабочая гипотеза: гибрид — бустинг на А и В ассортименте, foundation на новинках и длинном хвосте. Кто уже возил такое в прод? Как победили промо-ковариаты?
Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных
Рейтинг: 20.8% · 3 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
✔ Лучший ответ сформирован автоматически — roero
@Version, Возили практически такой же гибрид в сети на тысячу с лишним магазинов, расскажу, обо что бились. Промо победили каскадом. Foundation-модель прогнозирует базовый спрос по непромо-истории, а отдельный CatBoost накидывает промо-аплифт как мультипликатор: фичи — тип механики, глубина скидки, размещение, каннибализация соседних SKU. Развязка базы и аплифта дала больше, чем любые попытки зап…
Re: Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных
Результат был предсказуем ещё со времён M5: на ритейловских рядах с сильной экзогенкой градиентный бустинг бьёт всё, что не знает про твои промо. Foundation-модели — это про «запуститься за вечер без фичеинжиниринга», и в этой нише они честны.
Единственное — проверь утечки в бэктесте: глобальная нормализация по всему ряду до сплита у любителей трансформеров встречается постоянно и рисует им лишние пару процентов.
Единственное — проверь утечки в бэктесте: глобальная нормализация по всему ряду до сплита у любителей трансформеров встречается постоянно и рисует им лишние пару процентов.
- nixos_andy
- Сообщения: 61
- Зарегистрирован: 11 май 2026, 03:44
Re: Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных
@Manchaca, Хороший дизайн эксперимента, тета как бейзлайн — респект, обычно её стыдливо опускают, потому что половина «нейропрогнозов» ей проигрывает.
Два предложения. Первое — иерархическая реконсиляция: вы прогнозируете магазин-SKU напрямую? Прогнозы на уровнях сеть-SKU и категория-магазин с последующей реконсиляцией через MinT на похожей задаче давали нам минус 1.5-2 п.п. WAPE на нижнем уровне почти бесплатно. Второе — для длинного хвоста с перемежающимся спросом сравните ещё с Croston и ADIDA: на рядах, где 80% дней нули, WAPE вообще теряет смысл, считайте лучше стоимость ошибки в деньгах — списания против упущенных продаж.
Два предложения. Первое — иерархическая реконсиляция: вы прогнозируете магазин-SKU напрямую? Прогнозы на уровнях сеть-SKU и категория-магазин с последующей реконсиляцией через MinT на похожей задаче давали нам минус 1.5-2 п.п. WAPE на нижнем уровне почти бесплатно. Второе — для длинного хвоста с перемежающимся спросом сравните ещё с Croston и ADIDA: на рядах, где 80% дней нули, WAPE вообще теряет смысл, считайте лучше стоимость ошибки в деньгах — списания против упущенных продаж.
Re: Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных
✔ Лучший ответ — сформирован автоматически
@Version, Возили практически такой же гибрид в сети на тысячу с лишним магазинов, расскажу, обо что бились.
Промо победили каскадом. Foundation-модель прогнозирует базовый спрос по непромо-истории, а отдельный CatBoost накидывает промо-аплифт как мультипликатор: фичи — тип механики, глубина скидки, размещение, каннибализация соседних SKU. Развязка базы и аплифта дала больше, чем любые попытки запихнуть промо-календарь внутрь трансформера. Бонус: коммерция наконец получила отчуждаемую оценку «что даст акция», раньше это сидело в чёрном ящике.
Вторые грабли неожиданные: закупщиков бесила не точность, а нестабильность. Перезапустил пайплайн — заказ на ту же позицию прыгнул на 30%, доверие к системе падает мгновенно, люди возвращаются к экселю. Ввели сглаживание прогноза между запусками и ограничение дельты в 15% без ручного подтверждения — претензии кончились.
Итог за два квартала: списания минус 8-9%, out-of-stock минус 2 п.п. И отдельно поддержу твой вывод: на новинках foundation — это не «чуть лучше», это разница между «есть прогноз» и «закупщик ставит цифру с потолка».
Промо победили каскадом. Foundation-модель прогнозирует базовый спрос по непромо-истории, а отдельный CatBoost накидывает промо-аплифт как мультипликатор: фичи — тип механики, глубина скидки, размещение, каннибализация соседних SKU. Развязка базы и аплифта дала больше, чем любые попытки запихнуть промо-календарь внутрь трансформера. Бонус: коммерция наконец получила отчуждаемую оценку «что даст акция», раньше это сидело в чёрном ящике.
Вторые грабли неожиданные: закупщиков бесила не точность, а нестабильность. Перезапустил пайплайн — заказ на ту же позицию прыгнул на 30%, доверие к системе падает мгновенно, люди возвращаются к экселю. Ввели сглаживание прогноза между запусками и ограничение дельты в 15% без ручного подтверждения — претензии кончились.
Итог за два квартала: списания минус 8-9%, out-of-stock минус 2 п.п. И отдельно поддержу твой вывод: на новинках foundation — это не «чуть лучше», это разница между «есть прогноз» и «закупщик ставит цифру с потолка».
Re: Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных
@nixos_andy, Про экзогенку спрошу: погоду в фичах оставили? У нас она давала чистый шум везде, кроме явных сезонщиков — мороженое, гриль, напитки. А вот календарь СНГ обязателен отдельными флагами: майские, последняя неделя декабря и гендерные праздники ломают любой zero-shot. Chronos новогодний пик стабильно режет как выброс — в его предобучении наших предновогодних закупок гречки не было.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?
8 ответов · 18 просмотров
-
- Собесы по DS в 2026: спрашивают про агентов и RAG, а работа — CatBoost и SQL. Куда качаться?
5 ответов · 10 просмотров
-
- Chronos и TimesFM против CatBoost: кто-то реально перевел прогноз спроса на foundation-модели?
5 ответов · 8 просмотров
-
- TabPFN 2.5 против тюненного CatBoost на скоринге: фундаментальные модели добрались и до табличек?
4 ответов · 6 просмотров
-
- Пять лет на CatBoost и скоринге, а в вакансиях сплошные RAG и агенты — классический ML всё?
4 ответов · 6 просмотров
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость