TabPFN 2.5 против тюненного CatBoost на скоринге: фундаментальные модели добрались и до табличек?
Рейтинг: 71.7% · 16 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
TabPFN 2.5 против тюненного CatBoost на скоринге: фундаментальные модели добрались и до табличек?
Скоринговая задача, бинарная классификация, 38 тысяч строк, 92 признака после отбора. CatBoost с подбором гиперпараметров в optuna (300 итераций, ночь на сервере) даёт ROC-AUC 0.789 на отложенной выборке. TabPFN 2.5 из коробки, вообще без единого гиперпараметра — 0.793. Я три раза перепроверял сплиты, потому что не верил: трансформер, который «не обучается» на моих данных, а просто берёт трейн в контекст, обошёл вылизанный бустинг. Минусы вижу сразу: инференсу нужна GPU и он таскает обучающую выборку с собой — на нашей A4000 предикт батча в 10 тысяч строк занимает около 20 секунд против миллисекунд у бустинга на CPU; лимиты по размеру (порядка 50 тысяч строк и 2 тысяч признаков) — впритык к нашим задачам. Вопрос к практикам: кто-нибудь дотащил это до прода, или пока игрушка для бейзлайнов и каггла?
✔ Лучший ответ сформирован автоматически — postgres_andy
Поясню, почему это работает, а то звучит как магия. TabPFN — это prior-data fitted network: трансформер, претренированный на миллионах синтетических табличных задач. Он не учится на твоих данных в привычном смысле, а делает in-context learning — «вспоминает», как решаются структурно похожие задачи. Отсюда и сила на малых выборках, и жёсткий потолок по размеру. Теперь практика, как у нас это устро…
- prometheusandy
- Сообщения: 22
- Зарегистрирован: 04 июн 2026, 18:31
Re: TabPFN 2.5 против тюненного CatBoost на скоринге: фундаментальные модели добрались и до табличек?
@bruce01, На наших объёмах — 1.4 млн строк транзакций — неприменим вообще: сабсэмплинг до лимита роняет качество ниже бустинга, обученного на полных данных, проверяли честно, несколько стратегий сэмплирования. И про дрифт подумай: переобучить CatBoost — это пайплайн на 20 минут по расписанию, а у TabPFN «обучение» и есть инференс, каждый скоринг тащит весь актуальный трейн в память GPU. На малых данных верю в эти цифры охотно, на наших — нет.
- postgres_andy
- Сообщения: 17
- Зарегистрирован: 15 май 2026, 08:40
Re: TabPFN 2.5 против тюненного CatBoost на скоринге: фундаментальные модели добрались и до табличек?
✔ Лучший ответ — сформирован автоматически
Поясню, почему это работает, а то звучит как магия. TabPFN — это prior-data fitted network: трансформер, претренированный на миллионах синтетических табличных задач. Он не учится на твоих данных в привычном смысле, а делает in-context learning — «вспоминает», как решаются структурно похожие задачи. Отсюда и сила на малых выборках, и жёсткий потолок по размеру. Теперь практика, как у нас это устроено. Первое: TabPFN — обязательный бейзлайн первого дня любого проекта. Если за день тюнинга бустинг его не побил, значит сигнала в данных мало и копать надо в фичи, а не в гиперпараметры — одно это правило сэкономило нам недели бессмысленного перебора. Второе: для прода дистиллируем — учим CatBoost или простой MLP на предсказаниях TabPFN как на мягких метках, забираем 80-90% прироста при миллисекундном инференсе без GPU. На двух задачах из пяти дистиллят реально побил прямой тюнинг бустинга на исходных метках. Третье: тупое усреднение TabPFN с CatBoost почти всегда лучше каждого по отдельности — ошибки у них слабо коррелированы, классика ансамблей. Так что не «или-или», а инструмент в наборе.
Re: TabPFN 2.5 против тюненного CatBoost на скоринге: фундаментальные модели добрались и до табличек?
@bruce01, Банковская специфика: в прод у нас такое не уедет в лоб. Валидация и модельный риск-менеджмент потребуют объяснимость — SHAP по CatBoost все привыкли читать, а что показывать по модели, у которой «обучение» происходит в контексте на лету, методологи пока сами не знают. Зато с данными как раз порядок: веса открытые, на локальной 4090 крутится, ничего за периметр не уходит — это для нас жёсткое требование. Держим его как челленджер-модель: если челленджер стабильно бьёт прод два квартала подряд, это формальный аргумент пересобирать основную модель и фичи.
Re: TabPFN 2.5 против тюненного CatBoost на скоринге: фундаментальные модели добрались и до табличек?
@linux2024, Смежное наблюдение из временных рядов, раз уж про фундаментальные модели: гонял Chronos-Bolt против LightGBM с лагами и календарными фичами на прогнозе спроса по 800 SKU — бустинг впереди на 6-7% по WAPE, и это с учётом того, что в него вложено сильно меньше железа. Фундаментальные модели пока честно выигрывают только холодный старт, где истории нет совсем. На табличках, судя по этой ветке, картина повеселее.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Прогноз спроса в ритейле: прогнал Chronos-Bolt и TimesFM против нашего CatBoost на реальных данных
4 ответов · 16 просмотров
-
- Собесы по DS в 2026: спрашивают про агентов и RAG, а работа — CatBoost и SQL. Куда качаться?
5 ответов · 11 просмотров
-
- Chronos и TimesFM против CatBoost: кто-то реально перевел прогноз спроса на foundation-модели?
5 ответов · 8 просмотров
-
- Пять лет на CatBoost и скоринге, а в вакансиях сплошные RAG и агенты — классический ML всё?
4 ответов · 7 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость