Почему inference в torch.compile тормозит на первом батче и как прогревать

sabaza · Сообщение **sabaza** » 10 июн 2026, 23:17

Поставил torch.compile на сервинг, и первый запрос после старта пода летит 14 секунд вместо обычных 40мс. Дальше всё норм, но в k8s с readinessProbe это боль, под считается живым и в него сразу прилетает трафик, который висит. Torch 2.5.1, режим reduce-overhead. Кто как лечит этот первый батч?

joseph23 · Сообщение **joseph23** » 11 июн 2026, 04:04

так это же компиляция графа в рантайме, оно при первом проходе jit-ит ядра. ничего удивительного. прогревай фиктивным прогоном на старте до того как откроешь healthcheck

tolkien · Сообщение **tolkien** » 11 июн 2026, 05:40

joseph23 писал(а):прогревай фиктивным прогоном на старте до того как откроешь healthcheck

это работает только если у тебя один фиксированный размер входа. у меня динамические длины последовательностей, и torch.compile рекомпилит граф на каждую новую форму. прогрел на 128 токенов, пришёл запрос на 200 и снова 9 секунд колом. так что одним warmup не отделаешься

lostangel · Сообщение **lostangel** » 11 июн 2026, 06:37

У нас та же тема была на T4 в Селектеле. Решили в три захода и оно реально работает.

Первое, mark_dynamic на ось длины. torch._dynamo.mark_dynamic(input_ids, 1) перед компиляцией, тогда дайнамо не плодит граф под каждую форму, а собирает один с символьной осью. Рекомпиляции почти ушли, осталась пара на крайних бакетах.

Второе, бакетинг входов. Паддим до ближайшей степени из набора 64/128/256/512, прогреваем все четыре на старте контейнера. Да, чуть лишних вычислений на коротких, зато формы стабильные и граф один на бакет.

Третье, кэш компиляции между рестартами. TORCHINDUCTOR_CACHE_DIR на примонтированный PVC, плюс с torch 2.4 есть mega-cache, дамп через torch.compiler.save_cache_artifacts. После рестарта пода inductor не пересобирает ядра с нуля, холодный старт упал с 14с до примерно 2с. И главное, readinessProbe вешай на отдельный эндпоинт, который отвечает 200 только после того как все бакеты прогреты. Тогда трафик не приходит в непрогретый под.

По итогу p99 на старте перестал скакать, и автоскейл перестал плодить полудохлые поды.

corvet · Сообщение **corvet** » 11 июн 2026, 09:28

@joseph23, max-autotune вообще не трогай для сервинга если важен холодный старт, он перебирает конфиги ядер и компиляция растягивается до минуты. reduce-overhead норм компромисс

delphin · Сообщение **delphin** » 11 июн 2026, 12:33

lostangel писал(а):readinessProbe вешай на отдельный эндпоинт, который отвечает 200 только после того как все бакеты прогреты

вот это ключевое что все пропускают. у меня HPA на rps плодил поды в пик, они вставали в роутинг непрогретыми, p99 улетал в небо, HPA видел рост латенси и плодил ещё больше. петля. развязал именно отдельным проб-эндпоинтом

dannii · Сообщение **dannii** » 11 июн 2026, 15:13

а зачем вообще compile если можно torchscript
лол

valru · Сообщение **valru** » 11 июн 2026, 16:27

@anonymous torchscript半 deprecated по факту, его уже еле поддерживают и на новых моделях он падает на каждом втором кастомном слое. compile это замена. так что нет

Почему inference в torch.compile тормозит на первом батче и как прогревать

Почему inference в torch.compile тормозит на первом батче и как прогревать

Re: Почему inference в torch.compile тормозит на первом батче и как прогревать

Re: Почему inference в torch.compile тормозит на первом батче и как прогревать

Re: Почему inference в torch.compile тормозит на первом батче и как прогревать

Re: Почему inference в torch.compile тормозит на первом батче и как прогревать

Re: Почему inference в torch.compile тормозит на первом батче и как прогревать

Re: Почему inference в torch.compile тормозит на первом батче и как прогревать

Re: Почему inference в torch.compile тормозит на первом батче и как прогревать

Кто сейчас на конференции