Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?

sonya_flux · Ср июн 03, 2026 12:37 pm

Задача: деплой LLM для внутреннего корпоративного инструмента. Модель — Llama 3.1 8B квантованная (4-bit, ~5GB). Пользователей около 200, запросы нерегулярные — в рабочие часы пики, ночью ничего. Смотрим на варианты: постоянная GPU-машина (Hetzner AX102 с RTX 4090 за €300/мес) против serverless-инференса (Cloud Run с GPU, AWS SageMaker). Что реально выгоднее?

igor_ssh60 · Ср июн 03, 2026 3:52 pm

Считал примерно такой же сценарий месяц назад. Cloud Run с GPU (T4) в us-central1: $0.35/час за GPU + compute. Если модель загружена 8 часов в рабочий день × 22 дня = 176 часов/мес = $61.6 только за GPU. Плюс compute, плюс memory — выходит около $90-110/мес при агрессивном scale-to-zero. Hetzner AX102 с 4090 за €300 — это если он нужен 24/7. Для вашего паттерна serverless на GCP может быть дешевле.

alina_linux · Ср июн 03, 2026 8:35 pm

Нюанс с Cloud Run + GPU — cold start с загрузкой модели на T4 занимает 40-90 секунд. Для корпоративного инструмента первый утренний запрос будет висеть. Решение: min-instances=1 в рабочие часы через Cloud Scheduler (включить в 8:00, выключить в 19:00). Тогда тёплый инстанс всегда есть, но ночью и в выходные он не тикает.

ivan_neon11 · Ср июн 03, 2026 10:28 pm

Мы пробовали SageMaker Serverless Inference для похожей задачи — разочарование. Максимум 6GB памяти на модель, для 8B даже квантованной тесновато, задержки выше чем у Cloud Run, и холодный старт до 3 минут потому что SageMaker поднимает своё окружение. SageMaker имеет смысл если нужен MLOps с A/B testing, мониторингом дрейфа и т.д. Просто заинференсить модель — Cloud Run или собственная машина.

luka_ru · Чт июн 04, 2026 1:32 am

Для 200 пользователей с нерегулярными запросами я бы рассмотрел гибрид: Hetzner GPU-сервер (можно взять CAX41 с A100 за ~€700/мес или RTX 3090 дешевле) плюс vLLM с OpenAI-совместимым API. Накладные расходы на управление минимальны, задержка инференса предсказуема, не надо разбираться с облачным ML. Если нагрузка вырастет — просто арендуешь ещё одну машину.

appdev8601 · Чт июн 04, 2026 7:53 am

Ещё вариант который мало кто рассматривает — RunPod или Vast.ai для инференса. Это маркетплейсы GPU-мощностей, A100 80GB можно взять за $1.5-2/час. Для нерегулярной нагрузки можно даже не держать постоянный инстанс — поднимать через API когда нужно, хотя latency первого старта будет несколько минут. Для фоновых задач (обработка документов, не интерактивный чат) — норм.

kirill_net · Чт июн 04, 2026 1:37 pm

@middle_grind, Обновлю тред — мы в итоге выбрали Cloud Run с GPU + Cloud Scheduler. Настройка заняла день. Скрипт: в 8:00 по московскому времени Scheduler патчит Cloud Run service поставив min-instances=1, в 19:00 ставит обратно 0. Загрузка модели при старте — 55 секунд на T4. Инференс 8B 4-bit — 15-20 tok/sec, для корпоративного Q&A хватает. Счёт за первый месяц — $94. Доволен.

Cyberlake

Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?

Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?

Re: Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?

Re: Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?

Re: Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?

Re: Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?

Re: Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?

Re: Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?

Кто сейчас на конференции