Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?

Рейтинг: 61% · 6 голосов
AWS, Google Cloud Platform, Microsoft Azure, Cloudflare, Hetzner: облачные сервисы, архитектура, serverless, стоимость и миграция в облако.
Ответить
Аватара пользователя
sonya_flux
Сообщения: 3
Зарегистрирован: Пт май 15, 2026 3:28 am

Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?

Сообщение sonya_flux »

Задача: деплой LLM для внутреннего корпоративного инструмента. Модель — Llama 3.1 8B квантованная (4-bit, ~5GB). Пользователей около 200, запросы нерегулярные — в рабочие часы пики, ночью ничего. Смотрим на варианты: постоянная GPU-машина (Hetzner AX102 с RTX 4090 за €300/мес) против serverless-инференса (Cloud Run с GPU, AWS SageMaker). Что реально выгоднее?
👍2 ❤️ 🔥 😄 🤔1
✔ Лучший ответ сформирован автоматически — igor_ssh60
Считал примерно такой же сценарий месяц назад. Cloud Run с GPU (T4) в us-central1: $0.35/час за GPU + compute. Если модель загружена 8 часов в рабочий день × 22 дня = 176 часов/мес = $61.6 только за GPU. Плюс compute, плюс memory — выходит около $90-110/мес при агрессивном scale-to-zero. Hetzner AX102 с 4090 за €300 — это если он нужен 24/7. Для вашего паттерна serverless на GCP может быть дешевл…
Перейти к ответу →
Аватара пользователя
igor_ssh60
Сообщения: 8
Зарегистрирован: Вт май 19, 2026 3:34 am

Re: Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?

Сообщение igor_ssh60 »

✔ Лучший ответ — сформирован автоматически
Считал примерно такой же сценарий месяц назад. Cloud Run с GPU (T4) в us-central1: $0.35/час за GPU + compute. Если модель загружена 8 часов в рабочий день × 22 дня = 176 часов/мес = $61.6 только за GPU. Плюс compute, плюс memory — выходит около $90-110/мес при агрессивном scale-to-zero. Hetzner AX102 с 4090 за €300 — это если он нужен 24/7. Для вашего паттерна serverless на GCP может быть дешевле.
👍1 ❤️1 🔥 😄 🤔1
Аватара пользователя
alina_linux
Сообщения: 15
Зарегистрирован: Вт май 12, 2026 11:33 am

Re: Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?

Сообщение alina_linux »

Нюанс с Cloud Run + GPU — cold start с загрузкой модели на T4 занимает 40-90 секунд. Для корпоративного инструмента первый утренний запрос будет висеть. Решение: min-instances=1 в рабочие часы через Cloud Scheduler (включить в 8:00, выключить в 19:00). Тогда тёплый инстанс всегда есть, но ночью и в выходные он не тикает.
👍2 ❤️1 🔥1 😄2 🤔
Аватара пользователя
ivan_neon11
Сообщения: 7
Зарегистрирован: Пт май 15, 2026 11:09 pm

Re: Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?

Сообщение ivan_neon11 »

Мы пробовали SageMaker Serverless Inference для похожей задачи — разочарование. Максимум 6GB памяти на модель, для 8B даже квантованной тесновато, задержки выше чем у Cloud Run, и холодный старт до 3 минут потому что SageMaker поднимает своё окружение. SageMaker имеет смысл если нужен MLOps с A/B testing, мониторингом дрейфа и т.д. Просто заинференсить модель — Cloud Run или собственная машина.
👍1 ❤️1 🔥1 😄 🤔
Аватара пользователя
luka_ru
Сообщения: 9
Зарегистрирован: Пн май 11, 2026 1:30 pm

Re: Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?

Сообщение luka_ru »

Для 200 пользователей с нерегулярными запросами я бы рассмотрел гибрид: Hetzner GPU-сервер (можно взять CAX41 с A100 за ~€700/мес или RTX 3090 дешевле) плюс vLLM с OpenAI-совместимым API. Накладные расходы на управление минимальны, задержка инференса предсказуема, не надо разбираться с облачным ML. Если нагрузка вырастет — просто арендуешь ещё одну машину.
👍 ❤️ 🔥 😄1 🤔1
Аватара пользователя
appdev8601
Сообщения: 1
Зарегистрирован: Вт май 12, 2026 4:02 am

Re: Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?

Сообщение appdev8601 »

Ещё вариант который мало кто рассматривает — RunPod или Vast.ai для инференса. Это маркетплейсы GPU-мощностей, A100 80GB можно взять за $1.5-2/час. Для нерегулярной нагрузки можно даже не держать постоянный инстанс — поднимать через API когда нужно, хотя latency первого старта будет несколько минут. Для фоновых задач (обработка документов, не интерактивный чат) — норм.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
kirill_net
Сообщения: 10
Зарегистрирован: Вт май 12, 2026 1:04 pm

Re: Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?

Сообщение kirill_net »

@middle_grind, Обновлю тред — мы в итоге выбрали Cloud Run с GPU + Cloud Scheduler. Настройка заняла день. Скрипт: в 8:00 по московскому времени Scheduler патчит Cloud Run service поставив min-instances=1, в 19:00 ставит обратно 0. Загрузка модели при старте — 55 секунд на T4. Инференс 8B 4-bit — 15-20 tok/sec, для корпоративного Q&A хватает. Счёт за первый месяц — $94. Доволен.
👍1 ❤️ 🔥2 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость