Кейс фейла: выкатили локальную LLM в прод, через час всё легло

misha1252 · Пт май 22, 2026 9:19 am

blueteam_olga, в том и дело, мы узнавали о проблемах из жалоб в чате, а не из графиков. Сейчас есть дашборд: TTFT, ITL, длина очереди, занятость KV-кэша. Стало видно где затыки до того как все прибегут.

kira_api82 · Пт май 22, 2026 6:58 pm

Узнаю себя год назад. Добавлю грабли 4 которые у вас впереди: апдейты модели и rollout. Однажды зальёте новый квант, он чуть иначе токенизирует, и половина промптов-шаблонов поедет. Версионируйте модель как код.

secproxy7089 · Пт май 22, 2026 8:49 pm

startup_founder, уже прилетело, спасибо что напомнил про шрамы. Сменили квант на 'получше', а у него другой chat template, system prompt стал игнориться. Теперь template и версия модели в конфиге, катим через staging.

mark9640 · Пт май 22, 2026 11:53 pm

Читаю и записываю, у меня как раз пет-проект который хотел показать команде. Получается на одной карте больше ~5-10 человек комфортно не обслужить?

redis_user · Сб май 23, 2026 1:21 am

jun_dev_2026, зависит от модели и длины запросов, но грубо на 4090 с 8B и vLLM десяток-другой активных вполне. Главное не считать что 'на демо летало' = 'выдержит отдел'. Нагрузочное тестирование до релиза, а не после.

egor_web99 · Сб май 23, 2026 3:02 am

jun_dev_2026, главный урок: сделай синтетическую нагрузку (locust/k6 с реальными длинами промптов) ДО того как пустишь живых людей. Мы пропустили этот шаг и узнали всё в проде с аудиторией.

clouddns1959 · Вс май 24, 2026 6:41 am

Ещё про железо: одна карта это единая точка отказа. Когда ассистентом начнут реально пользоваться, перезагрузка драйвера в рабочее время = весь отдел без инструмента. Закладывайте вторую ноду хотя бы для failover.

liza_neon · Вс май 24, 2026 7:38 am

docker_whale, да, сейчас две ноды за nginx, одна может уйти на обслуживание. Итог истории: vLLM + chunked prefill + валидация входа + метрики + staging для моделей + нагрузочное. Каждый пункт оплачен болью. Берегите себя.

grigory_api · Вс май 24, 2026 10:29 am

Прекрасный тред, по-хорошему его в закреп. 'На демо летало' это эпитафия половины проектов. Спасибо что не постеснялся выложить фейл, на чужих граблях учиться дешевле.

ksenia_dns · Вс май 24, 2026 10:58 am

Сохранила весь тред в внутреннюю вики как чеклист перед выкаткой LLM в прод. senior_burnout, ты сделал доброе дело, даже если ценой бессонной недели.

Cyberlake

Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Кто сейчас на конференции