TabPFN 2.5 против тюненного CatBoost на скоринге: фундаментальные модели добрались и до табличек?

bruce01 · Сообщение **bruce01** » 09 июн 2026, 13:14

Скоринговая задача, бинарная классификация, 38 тысяч строк, 92 признака после отбора. CatBoost с подбором гиперпараметров в optuna (300 итераций, ночь на сервере) даёт ROC-AUC 0.789 на отложенной выборке. TabPFN 2.5 из коробки, вообще без единого гиперпараметра — 0.793. Я три раза перепроверял сплиты, потому что не верил: трансформер, который «не обучается» на моих данных, а просто берёт трейн в контекст, обошёл вылизанный бустинг. Минусы вижу сразу: инференсу нужна GPU и он таскает обучающую выборку с собой — на нашей A4000 предикт батча в 10 тысяч строк занимает около 20 секунд против миллисекунд у бустинга на CPU; лимиты по размеру (порядка 50 тысяч строк и 2 тысяч признаков) — впритык к нашим задачам. Вопрос к практикам: кто-нибудь дотащил это до прода, или пока игрушка для бейзлайнов и каггла?

prometheusandy

@bruce01, На наших объёмах — 1.4 млн строк транзакций — неприменим вообще: сабсэмплинг до лимита роняет качество ниже бустинга, обученного на полных данных, проверяли честно, несколько стратегий сэмплирования. И про дрифт подумай: переобучить CatBoost — это пайплайн на 20 минут по расписанию, а у TabPFN «обучение» и есть инференс, каждый скоринг тащит весь актуальный трейн в память GPU. На малых данных верю в эти цифры охотно, на наших — нет.

postgres_andy

Поясню, почему это работает, а то звучит как магия. TabPFN — это prior-data fitted network: трансформер, претренированный на миллионах синтетических табличных задач. Он не учится на твоих данных в привычном смысле, а делает in-context learning — «вспоминает», как решаются структурно похожие задачи. Отсюда и сила на малых выборках, и жёсткий потолок по размеру. Теперь практика, как у нас это устроено. Первое: TabPFN — обязательный бейзлайн первого дня любого проекта. Если за день тюнинга бустинг его не побил, значит сигнала в данных мало и копать надо в фичи, а не в гиперпараметры — одно это правило сэкономило нам недели бессмысленного перебора. Второе: для прода дистиллируем — учим CatBoost или простой MLP на предсказаниях TabPFN как на мягких метках, забираем 80-90% прироста при миллисекундном инференсе без GPU. На двух задачах из пяти дистиллят реально побил прямой тюнинг бустинга на исходных метках. Третье: тупое усреднение TabPFN с CatBoost почти всегда лучше каждого по отдельности — ошибки у них слабо коррелированы, классика ансамблей. Так что не «или-или», а инструмент в наборе.

linux2024 · Сообщение **linux2024** » 09 июн 2026, 19:09

@bruce01, Банковская специфика: в прод у нас такое не уедет в лоб. Валидация и модельный риск-менеджмент потребуют объяснимость — SHAP по CatBoost все привыкли читать, а что показывать по модели, у которой «обучение» происходит в контексте на лету, методологи пока сами не знают. Зато с данными как раз порядок: веса открытые, на локальной 4090 крутится, ничего за периметр не уходит — это для нас жёсткое требование. Держим его как челленджер-модель: если челленджер стабильно бьёт прод два квартала подряд, это формальный аргумент пересобирать основную модель и фичи.

barbs · Сообщение **barbs** » 09 июн 2026, 22:33

@linux2024, Смежное наблюдение из временных рядов, раз уж про фундаментальные модели: гонял Chronos-Bolt против LightGBM с лагами и календарными фичами на прогнозе спроса по 800 SKU — бустинг впереди на 6-7% по WAPE, и это с учётом того, что в него вложено сильно меньше железа. Фундаментальные модели пока честно выигрывают только холодный старт, где истории нет совсем. На табличках, судя по этой ветке, картина повеселее.

TabPFN 2.5 против тюненного CatBoost на скоринге: фундаментальные модели добрались и до табличек?

TabPFN 2.5 против тюненного CatBoost на скоринге: фундаментальные модели добрались и до табличек?

Re: TabPFN 2.5 против тюненного CatBoost на скоринге: фундаментальные модели добрались и до табличек?

Re: TabPFN 2.5 против тюненного CatBoost на скоринге: фундаментальные модели добрались и до табличек?

Re: TabPFN 2.5 против тюненного CatBoost на скоринге: фундаментальные модели добрались и до табличек?

Re: TabPFN 2.5 против тюненного CatBoost на скоринге: фундаментальные модели добрались и до табличек?

Кто сейчас на конференции