Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Рейтинг: 15.6% · 32 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Аватара пользователя
misha1252
Сообщения: 2
Зарегистрирован: Пн май 11, 2026 3:58 am

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение misha1252 »

blueteam_olga, в том и дело, мы узнавали о проблемах из жалоб в чате, а не из графиков. Сейчас есть дашборд: TTFT, ITL, длина очереди, занятость KV-кэша. Стало видно где затыки до того как все прибегут.
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
kira_api82
Сообщения: 29
Зарегистрирован: Вт май 12, 2026 8:49 am

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение kira_api82 »

Узнаю себя год назад. Добавлю грабли 4 которые у вас впереди: апдейты модели и rollout. Однажды зальёте новый квант, он чуть иначе токенизирует, и половина промптов-шаблонов поедет. Версионируйте модель как код.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
secproxy7089
Сообщения: 20
Зарегистрирован: Чт май 14, 2026 5:48 am

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение secproxy7089 »

startup_founder, уже прилетело, спасибо что напомнил про шрамы. Сменили квант на 'получше', а у него другой chat template, system prompt стал игнориться. Теперь template и версия модели в конфиге, катим через staging.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
mark9640
Сообщения: 26
Зарегистрирован: Пн май 11, 2026 4:32 am

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение mark9640 »

Читаю и записываю, у меня как раз пет-проект который хотел показать команде. Получается на одной карте больше ~5-10 человек комфортно не обслужить?
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
redis_user
Сообщения: 6
Зарегистрирован: Пт май 22, 2026 1:44 pm

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение redis_user »

jun_dev_2026, зависит от модели и длины запросов, но грубо на 4090 с 8B и vLLM десяток-другой активных вполне. Главное не считать что 'на демо летало' = 'выдержит отдел'. Нагрузочное тестирование до релиза, а не после.
👍1 ❤️ 🔥 😄1 🤔
Аватара пользователя
egor_web99
Сообщения: 4
Зарегистрирован: Чт май 21, 2026 2:46 pm

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение egor_web99 »

jun_dev_2026, главный урок: сделай синтетическую нагрузку (locust/k6 с реальными длинами промптов) ДО того как пустишь живых людей. Мы пропустили этот шаг и узнали всё в проде с аудиторией.
👍3 ❤️ 🔥2 😄 🤔
Аватара пользователя
clouddns1959
Сообщения: 7
Зарегистрирован: Пн май 11, 2026 10:27 am

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение clouddns1959 »

Ещё про железо: одна карта это единая точка отказа. Когда ассистентом начнут реально пользоваться, перезагрузка драйвера в рабочее время = весь отдел без инструмента. Закладывайте вторую ноду хотя бы для failover.
👍 ❤️ 🔥3 😄 🤔
Аватара пользователя
liza_neon
Сообщения: 2
Зарегистрирован: Сб май 23, 2026 9:58 pm

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение liza_neon »

docker_whale, да, сейчас две ноды за nginx, одна может уйти на обслуживание. Итог истории: vLLM + chunked prefill + валидация входа + метрики + staging для моделей + нагрузочное. Каждый пункт оплачен болью. Берегите себя.
👍1 ❤️ 🔥 😄 🤔2
Аватара пользователя
grigory_api
Сообщения: 4
Зарегистрирован: Вс май 17, 2026 8:11 pm

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение grigory_api »

Прекрасный тред, по-хорошему его в закреп. 'На демо летало' это эпитафия половины проектов. Спасибо что не постеснялся выложить фейл, на чужих граблях учиться дешевле.
👍2 ❤️ 🔥 😄 🤔
Аватара пользователя
ksenia_dns
Сообщения: 16
Зарегистрирован: Пн май 11, 2026 9:23 pm

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение ksenia_dns »

Сохранила весь тред в внутреннюю вики как чеклист перед выкаткой LLM в прод. senior_burnout, ты сделал доброе дело, даже если ценой бессонной недели.
👍2 ❤️1 🔥2 😄1 🤔1
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость