Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

Рейтинг: 43.9% · 3 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
k_egor_s
Сообщения: 20
Зарегистрирован: 16 май 2026, 11:11

Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

Сообщение k_egor_s »

Выкатываю в прод модель классификации (трансформер на 300М параметров, нагрузка около 200 rps, латенси бюджет 150мс p99), и не могу определиться: завернуть в FastAPI с torch или городить Triton Inference Server. Команда маленькая, инфра свой кубер на серверах в РФ, GPU ограничены. Что реально берут под такие цифры и где Triton оправдан, а где это оверинжиниринг.
👍1 ❤️ 🔥2 😄 🤔1
✔ Лучший ответ сформирован автоматически — rupaniii
@vuepro, не так все однозначно. зависит от того сколько у тебя GPU и готова ли команда тащить triton. fastapi+torch минусы тут реальные. на 200rps без батчинга ты GPU не утилизируешь, каждый запрос идет поштучно, и p99 поплывет под нагрузкой. можно прикрутить ручной micro-batching через очередь, но это велосипед который ты будешь чинить по ночам. triton решает это из коробки. dynamic batching соб…
Перейти к ответу →
Аватара пользователя
vuepro
Сообщения: 6
Зарегистрирован: 23 май 2026, 06:35

Re: Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

Сообщение vuepro »

200rps и 300М на гпу. fastapi с батчингом захлебнется на p99, бери triton с dynamic batching и не думай
👍1 ❤️ 🔥1 😄 🤔
Аватара пользователя
rupaniii
Сообщения: 13
Зарегистрирован: 14 май 2026, 06:37

Re: Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

Сообщение rupaniii »

✔ Лучший ответ — сформирован автоматически
@vuepro, не так все однозначно. зависит от того сколько у тебя GPU и готова ли команда тащить triton.

fastapi+torch минусы тут реальные. на 200rps без батчинга ты GPU не утилизируешь, каждый запрос идет поштучно, и p99 поплывет под нагрузкой. можно прикрутить ручной micro-batching через очередь, но это велосипед который ты будешь чинить по ночам.
triton решает это из коробки. dynamic batching собирает запросы в окне, model instances параллелят, есть готовые метрики в прометей. под 200rps и жесткий p99 он прям создан.
но. triton это конфиги pbtxt, конвертация модели, отдельный навык в команде. для маленькой команды это месяц возни и постоянная боль на апдейтах модели.

компромисс который я бы взял. сконвертируй модель в ONNX, прогони через onnxruntime-gpu, и подними либо в triton с onnx backend, либо даже в fastapi но уже с onnxruntime и батчингом. onnx сам по себе даст тебе 1.5-2x по латенси против голого torch, иногда этого хватает чтобы влезть в 150мс без triton вообще.
резюме. сначала ONNX и замер. влез в бюджет на fastapi+onnxruntime, живи так. не влез или нужна утилизация GPU под рост нагрузки, тогда triton. не начинай с triton если не уверен что упрешься.
👍1 ❤️1 🔥1 😄 🤔
Аватара пользователя
Austkin
Сообщения: 83
Зарегистрирован: 11 май 2026, 03:40

Re: Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

Сообщение Austkin »

rupaniii писал(а):onnx сам по себе даст тебе 1.5-2x по латенси против голого torch
не обещай людям 2x так уверенно, у нас на берте onnx дал процентов 20 и все. сильно от модели и от того что за бэкенд. иногда tensorrt нужен чтобы реально ускорить, а это уже отдельная боль с версиями cuda
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
asyncmonk
Сообщения: 62
Зарегистрирован: 13 май 2026, 16:00

Re: Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

Сообщение asyncmonk »

vllm не предлагать сразу, это для генерации, у человека классификатор. а то налетят сейчас
👍 ❤️2 🔥 😄 🤔1
Аватара пользователя
van100
Сообщения: 19
Зарегистрирован: 16 май 2026, 02:09

Re: Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

Сообщение van100 »

@asyncmonk, @кто-то спасибо что предупредил, реально бы налетели лол. для классификатора vllm оверкилл полный
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
android_roman
Сообщения: 45
Зарегистрирован: 11 май 2026, 05:31

Re: Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

Сообщение android_roman »

мы взяли triton и пожалели для маленькой команды. pbtxt конфиги, версионирование моделей, каждый апдейт это квест. на нашей нагрузке fastapi+onnxruntime с очередью батчей вывез бы спокойно. так что соглашусь не начинать с triton без явной нужды
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
elixir2010
Сообщения: 18
Зарегистрирован: 31 май 2026, 22:10

Re: Деплой ML модели в прод, FastAPI или сразу Triton, что выбрать в 2026

Сообщение elixir2010 »

200rps это вообще не нагрузка для 300М на нормальной гпу если батчишь. весь вопрос в батчинге а не в фреймворке. без батча и triton не спасет если инстансов мало
👍1 ❤️ 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя