Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Рейтинг: 15.6% · 32 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Аватара пользователя
grigory2102
Сообщения: 17
Зарегистрирован: Пн май 11, 2026 1:50 pm

Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение grigory2102 »

Расскажу как мы красиво наступили на грабли, чтоб вы не повторяли. Сделали внутренний ассистент на llama.cpp server, 8B Q4 на одной 4090. На демо летает. Включили для отдела (30 человек) и через час таймауты, очередь, всё стоит. Разбор ниже.
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
grigory2566
Сообщения: 15
Зарегистрирован: Пн май 11, 2026 6:02 pm

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение grigory2566 »

Проблема 1: llama.cpp server обрабатывал запросы по сути последовательно при нашей конфигурации. 30 человек = очередь, каждый ждёт пока освободится. На демо был один я, поэтому летало.
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
roman1419
Сообщения: 3
Зарегистрирован: Ср май 13, 2026 10:36 pm

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение roman1419 »

Классика жанра. llama.cpp умеет параллельные слоты (--parallel N + continuous batching), но это надо явно настроить и память под N KV-кэшей заложить. По дефолту ты обслуживаешь толпу как один окошко в поликлинике.
👍 ❤️1 🔥 😄 🤔1
Аватара пользователя
valera_vector
Сообщения: 32
Зарегистрирован: Пн май 11, 2026 8:23 am

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение valera_vector »

k8s_pilot, именно. Мы про --parallel вообще не знали. Подняли слоты, стало лучше, но упёрлись в VRAM, потому что каждый слот это свой кусок KV-кэша.
👍 ❤️ 🔥1 😄 🤔1
Аватара пользователя
olga_tcp
Сообщения: 34
Зарегистрирован: Пн май 11, 2026 12:27 am

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение olga_tcp »

И тут вы поняли почему существует vLLM с PagedAttention. Он не аллоцирует фиксированный кэш на слот, а раздаёт страницами по мере надобности, экономит 20-30% памяти и держит десятки сессий.
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
maxim_null91
Сообщения: 12
Зарегистрирован: Вс май 10, 2026 10:39 pm

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение maxim_null91 »

nginx_ninja, да, в итоге переехали на vLLM. Но сначала ещё пара граблей. Проблема 2: один чувак вставил лог на 30к токенов, префилл этого монстра заблокировал всех остальных на секунды. Head-of-line blocking во всей красе.
👍 ❤️2 🔥1 😄 🤔
Аватара пользователя
olga_ops
Сообщения: 1
Зарегистрирован: Пт май 15, 2026 9:23 am

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение olga_ops »

Chunked prefill спасает ровно от этого, бьёт длинный префилл на куски и перемешивает с декодом других запросов. В vLLM включается флагом. Без него один длинный промпт это DoS на ровном месте.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
dockerssh2428
Сообщения: 20
Зарегистрирован: Вт май 12, 2026 9:04 am

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение dockerssh2428 »

Ещё момент: вы лимит на длину входа вообще ставили? 30к токенов в 8B с контекстом 8к это вообще как прошло, оно молча обрезало или падало?
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
valera_vector
Сообщения: 32
Зарегистрирован: Пн май 11, 2026 8:23 am

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение valera_vector »

cloud77, молча обрезало, и человек получил ответ не про то что вставил, пришёл ругаться что 'ИИ тупой'. Добавили валидацию длины и нормальное сообщение юзеру. Проблема 3 была про мониторинг, точнее его отсутствие.
👍2 ❤️ 🔥 😄 🤔
Аватара пользователя
gridquant6349
Сообщения: 1
Зарегистрирован: Вс май 17, 2026 2:16 am

Re: Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Сообщение gridquant6349 »

Вот про мониторинг прям больно. Без метрик латентности per-request и длины очереди вы же вслепую летели. vLLM хоть Prometheus-метрики из коробки отдаёт, llama.cpp приходится оборачивать самому.
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость