Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

k_egor_s · Сообщение **k_egor_s** » 24 май 2026, 13:59

Выкатываю в прод модель классификации (трансформер на 300М параметров, нагрузка около 200 rps, латенси бюджет 150мс p99), и не могу определиться: завернуть в FastAPI с torch или городить Triton Inference Server. Команда маленькая, инфра свой кубер на серверах в РФ, GPU ограничены. Что реально берут под такие цифры и где Triton оправдан, а где это оверинжиниринг.

vuepro · Сообщение **vuepro** » 24 май 2026, 18:01

200rps и 300М на гпу. fastapi с батчингом захлебнется на p99, бери triton с dynamic batching и не думай

rupaniii · Сообщение **rupaniii** » 24 май 2026, 19:13

@vuepro, не так все однозначно. зависит от того сколько у тебя GPU и готова ли команда тащить triton.

fastapi+torch минусы тут реальные. на 200rps без батчинга ты GPU не утилизируешь, каждый запрос идет поштучно, и p99 поплывет под нагрузкой. можно прикрутить ручной micro-batching через очередь, но это велосипед который ты будешь чинить по ночам.
triton решает это из коробки. dynamic batching собирает запросы в окне, model instances параллелят, есть готовые метрики в прометей. под 200rps и жесткий p99 он прям создан.
но. triton это конфиги pbtxt, конвертация модели, отдельный навык в команде. для маленькой команды это месяц возни и постоянная боль на апдейтах модели.

компромисс который я бы взял. сконвертируй модель в ONNX, прогони через onnxruntime-gpu, и подними либо в triton с onnx backend, либо даже в fastapi но уже с onnxruntime и батчингом. onnx сам по себе даст тебе 1.5-2x по латенси против голого torch, иногда этого хватает чтобы влезть в 150мс без triton вообще.
резюме. сначала ONNX и замер. влез в бюджет на fastapi+onnxruntime, живи так. не влез или нужна утилизация GPU под рост нагрузки, тогда triton. не начинай с triton если не уверен что упрешься.

Austkin · Сообщение **Austkin** » 24 май 2026, 19:18

rupaniii писал(а):onnx сам по себе даст тебе 1.5-2x по латенси против голого torch

не обещай людям 2x так уверенно, у нас на берте onnx дал процентов 20 и все. сильно от модели и от того что за бэкенд. иногда tensorrt нужен чтобы реально ускорить, а это уже отдельная боль с версиями cuda

asyncmonk · Сообщение **asyncmonk** » 24 май 2026, 21:48

vllm не предлагать сразу, это для генерации, у человека классификатор. а то налетят сейчас

van100 · Сообщение **van100** » 25 май 2026, 02:43

@asyncmonk, @кто-то спасибо что предупредил, реально бы налетели лол. для классификатора vllm оверкилл полный

android_roman

мы взяли triton и пожалели для маленькой команды. pbtxt конфиги, версионирование моделей, каждый апдейт это квест. на нашей нагрузке fastapi+onnxruntime с очередью батчей вывез бы спокойно. так что соглашусь не начинать с triton без явной нужды

elixir2010 · Сообщение **elixir2010** » 25 май 2026, 07:49

200rps это вообще не нагрузка для 300М на нормальной гпу если батчишь. весь вопрос в батчинге а не в фреймворке. без батча и triton не спасет если инстансов мало

Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

Re: Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

Re: Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

Re: Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

Re: Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

Re: Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

Re: Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

Re: Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

Кто сейчас на конференции