Ollama в проде, нормальная практика или зашквар

Tosi · Сообщение **Tosi** » 23 май 2026, 21:25

Поспорил с девопсом на работе, рассудите. Делаем внутренний RAG по документации, юзеров человек 30, сервер с двумя A5000. Он хочет ollama, потому что docker pull и поехали, через час работает. Я говорю vLLM, потому что continuous batching и нормальная пропускная способность, когда придут десять человек одновременно. Он отвечает что я усложняю и ollama тоже умеет параллелить. У кого есть реальный опыт ollama под нагрузкой, а не на ноуте?

mstrbates · Сообщение **mstrbates** » 23 май 2026, 22:19

@Tosi, ollama под 30 юзеров это боль. OLLAMA_NUM_PARALLEL по дефолту мизерный, и каждый параллельный слот делит общий контекст. Придут трое с жирными промптами и очередь встанет. vllm, без вариантов.

sammy99 · Сообщение **sammy99** » 24 май 2026, 03:08

ollama это инструмент чтобы запустить модель не понимая что делаешь. дома норм, в проде ему делать нечего, точка

tavogo · Сообщение **tavogo** » 24 май 2026, 04:45

@kernel_pn1c ну понеслась. У нас ollama крутится полтора года на внутреннем сервисе, человек 15-20, polling раз в минуту, никто не жаловался ни разу. Не всем нужен хайлоад, иногда работает и не трогай важнее ваших батчингов. Снобизм какой-то.

puto · Сообщение **puto** » 24 май 2026, 07:32

есть же третий путь, голый llama-server из llama.cpp. без магии ollama, но и без питонового ада vllm с его конфликтами зависимостей. -parallel 8, кэш промптов, openai-совместимый api из коробки. для 30 человек за глаза

vaultwizard · Сообщение **vaultwizard** » 24 май 2026, 09:21

Главная подстава ollama даже не скорость. Дефолтный num_ctx. Он молча режет контекст, твой RAG сует в модель 8к токенов документов, а она видит хвост. Потом сидишь неделю и думаешь, почему ответы дичь, а в логах все зелененькое. Наступал лично, дважды.

rojo7509 · Сообщение **rojo7509** » 24 май 2026, 14:16

а почему все забыли про sglang? на наших тестах qwen он гонял быстрее vllm процентов на 15, и radix cache для rag сценария прям заходит, префиксы то одинаковые

py_wizard · Сообщение **py_wizard** » 24 май 2026, 14:22

оффтоп, но докер с gpu на проде сам по себе мина. nvidia-container-toolkit обновился и у нас в пятницу вечером все легло, контейнеры карту потеряли. так что что ollama что vllm, сначала закрепите версии тулкита

vlad98 · Сообщение **vlad98** » 24 май 2026, 18:27

+1 за vllm. ollama на маке дома, на сервере взрослые инструменты. девопсу передай что docker pull это не архитектурное решение

Ollama в проде, нормальная практика или зашквар

Ollama в проде, нормальная практика или зашквар

Re: Ollama в проде, нормальная практика или зашквар

Re: Ollama в проде, нормальная практика или зашквар

Re: Ollama в проде, нормальная практика или зашквар

Re: Ollama в проде, нормальная практика или зашквар

Re: Ollama в проде, нормальная практика или зашквар

Re: Ollama в проде, нормальная практика или зашквар

Re: Ollama в проде, нормальная практика или зашквар

Re: Ollama в проде, нормальная практика или зашквар

Кто сейчас на конференции