Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?
Рейтинг: 61% · 6 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- sonya_flux
- Сообщения: 3
- Зарегистрирован: Пт май 15, 2026 3:28 am
Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?
Задача: деплой LLM для внутреннего корпоративного инструмента. Модель — Llama 3.1 8B квантованная (4-bit, ~5GB). Пользователей около 200, запросы нерегулярные — в рабочие часы пики, ночью ничего. Смотрим на варианты: постоянная GPU-машина (Hetzner AX102 с RTX 4090 за €300/мес) против serverless-инференса (Cloud Run с GPU, AWS SageMaker). Что реально выгоднее?
✔ Лучший ответ сформирован автоматически — igor_ssh60
Считал примерно такой же сценарий месяц назад. Cloud Run с GPU (T4) в us-central1: $0.35/час за GPU + compute. Если модель загружена 8 часов в рабочий день × 22 дня = 176 часов/мес = $61.6 только за GPU. Плюс compute, плюс memory — выходит около $90-110/мес при агрессивном scale-to-zero. Hetzner AX102 с 4090 за €300 — это если он нужен 24/7. Для вашего паттерна serverless на GCP может быть дешевл…
- igor_ssh60
- Сообщения: 8
- Зарегистрирован: Вт май 19, 2026 3:34 am
Re: Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?
✔ Лучший ответ — сформирован автоматически
Считал примерно такой же сценарий месяц назад. Cloud Run с GPU (T4) в us-central1: $0.35/час за GPU + compute. Если модель загружена 8 часов в рабочий день × 22 дня = 176 часов/мес = $61.6 только за GPU. Плюс compute, плюс memory — выходит около $90-110/мес при агрессивном scale-to-zero. Hetzner AX102 с 4090 за €300 — это если он нужен 24/7. Для вашего паттерна serverless на GCP может быть дешевле.
- alina_linux
- Сообщения: 15
- Зарегистрирован: Вт май 12, 2026 11:33 am
Re: Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?
Нюанс с Cloud Run + GPU — cold start с загрузкой модели на T4 занимает 40-90 секунд. Для корпоративного инструмента первый утренний запрос будет висеть. Решение: min-instances=1 в рабочие часы через Cloud Scheduler (включить в 8:00, выключить в 19:00). Тогда тёплый инстанс всегда есть, но ночью и в выходные он не тикает.
- ivan_neon11
- Сообщения: 7
- Зарегистрирован: Пт май 15, 2026 11:09 pm
Re: Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?
Мы пробовали SageMaker Serverless Inference для похожей задачи — разочарование. Максимум 6GB памяти на модель, для 8B даже квантованной тесновато, задержки выше чем у Cloud Run, и холодный старт до 3 минут потому что SageMaker поднимает своё окружение. SageMaker имеет смысл если нужен MLOps с A/B testing, мониторингом дрейфа и т.д. Просто заинференсить модель — Cloud Run или собственная машина.
Re: Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?
Для 200 пользователей с нерегулярными запросами я бы рассмотрел гибрид: Hetzner GPU-сервер (можно взять CAX41 с A100 за ~€700/мес или RTX 3090 дешевле) плюс vLLM с OpenAI-совместимым API. Накладные расходы на управление минимальны, задержка инференса предсказуема, не надо разбираться с облачным ML. Если нагрузка вырастет — просто арендуешь ещё одну машину.
- appdev8601
- Сообщения: 1
- Зарегистрирован: Вт май 12, 2026 4:02 am
Re: Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?
Ещё вариант который мало кто рассматривает — RunPod или Vast.ai для инференса. Это маркетплейсы GPU-мощностей, A100 80GB можно взять за $1.5-2/час. Для нерегулярной нагрузки можно даже не держать постоянный инстанс — поднимать через API когда нужно, хотя latency первого старта будет несколько минут. Для фоновых задач (обработка документов, не интерактивный чат) — норм.
- kirill_net
- Сообщения: 10
- Зарегистрирован: Вт май 12, 2026 1:04 pm
Re: Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?
@middle_grind, Обновлю тред — мы в итоге выбрали Cloud Run с GPU + Cloud Scheduler. Настройка заняла день. Скрипт: в 8:00 по московскому времени Scheduler патчит Cloud Run service поставив min-instances=1, в 19:00 ставит обратно 0. Загрузка модели при старте — 55 секунд на T4. Инференс 8B 4-bit — 15-20 tok/sec, для корпоративного Q&A хватает. Счёт за первый месяц — $94. Доволен.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
- Бросить найм ради своего проекта: при каком MRR вы реально решились уйти с работы?
7 ответов · 2025 просмотров
-
- С чего реально начать в пентесте в 2026? TryHackMe, HTB или сразу сертификаты?
9 ответов · 1902 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость