Кейс фейла: выкатили локальную LLM в прод, через час всё легло

grigory2102 · Вт май 19, 2026 11:35 pm

Расскажу как мы красиво наступили на грабли, чтоб вы не повторяли. Сделали внутренний ассистент на llama.cpp server, 8B Q4 на одной 4090. На демо летает. Включили для отдела (30 человек) и через час таймауты, очередь, всё стоит. Разбор ниже.

grigory2566 · Ср май 20, 2026 2:48 am

Проблема 1: llama.cpp server обрабатывал запросы по сути последовательно при нашей конфигурации. 30 человек = очередь, каждый ждёт пока освободится. На демо был один я, поэтому летало.

roman1419 · Ср май 20, 2026 3:23 am

Классика жанра. llama.cpp умеет параллельные слоты (--parallel N + continuous batching), но это надо явно настроить и память под N KV-кэшей заложить. По дефолту ты обслуживаешь толпу как один окошко в поликлинике.

valera_vector · Ср май 20, 2026 6:09 am

k8s_pilot, именно. Мы про --parallel вообще не знали. Подняли слоты, стало лучше, но упёрлись в VRAM, потому что каждый слот это свой кусок KV-кэша.

olga_tcp · Ср май 20, 2026 9:52 am

И тут вы поняли почему существует vLLM с PagedAttention. Он не аллоцирует фиксированный кэш на слот, а раздаёт страницами по мере надобности, экономит 20-30% памяти и держит десятки сессий.

maxim_null91 · Ср май 20, 2026 11:12 pm

nginx_ninja, да, в итоге переехали на vLLM. Но сначала ещё пара граблей. Проблема 2: один чувак вставил лог на 30к токенов, префилл этого монстра заблокировал всех остальных на секунды. Head-of-line blocking во всей красе.

olga_ops · Чт май 21, 2026 12:42 am

Chunked prefill спасает ровно от этого, бьёт длинный префилл на куски и перемешивает с декодом других запросов. В vLLM включается флагом. Без него один длинный промпт это DoS на ровном месте.

dockerssh2428 · Чт май 21, 2026 2:50 am

Ещё момент: вы лимит на длину входа вообще ставили? 30к токенов в 8B с контекстом 8к это вообще как прошло, оно молча обрезало или падало?

valera_vector · Чт май 21, 2026 3:01 am

cloud77, молча обрезало, и человек получил ответ не про то что вставил, пришёл ругаться что 'ИИ тупой'. Добавили валидацию длины и нормальное сообщение юзеру. Проблема 3 была про мониторинг, точнее его отсутствие.

gridquant6349 · Пт май 22, 2026 12:13 am

Вот про мониторинг прям больно. Без метрик латентности per-request и длины очереди вы же вслепую летели. vLLM хоть Prometheus-метрики из коробки отдаёт, llama.cpp приходится оборачивать самому.

Cyberlake

Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Кто сейчас на конференции