Ollama в проде, нормальная практика или зашквар

Рейтинг: 0% · 0 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
Tosi
Сообщения: 2
Зарегистрирован: 19 май 2026, 14:57

Ollama в проде, нормальная практика или зашквар

Сообщение Tosi »

Поспорил с девопсом на работе, рассудите. Делаем внутренний RAG по документации, юзеров человек 30, сервер с двумя A5000. Он хочет ollama, потому что docker pull и поехали, через час работает. Я говорю vLLM, потому что continuous batching и нормальная пропускная способность, когда придут десять человек одновременно. Он отвечает что я усложняю и ollama тоже умеет параллелить. У кого есть реальный опыт ollama под нагрузкой, а не на ноуте?
👍2 ❤️1 🔥 😄 🤔
Аватара пользователя
mstrbates
Сообщения: 88
Зарегистрирован: 11 май 2026, 00:45

Re: Ollama в проде, нормальная практика или зашквар

Сообщение mstrbates »

@Tosi, ollama под 30 юзеров это боль. OLLAMA_NUM_PARALLEL по дефолту мизерный, и каждый параллельный слот делит общий контекст. Придут трое с жирными промптами и очередь встанет. vllm, без вариантов.
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
sammy99
Сообщения: 8
Зарегистрирован: 17 май 2026, 17:32

Re: Ollama в проде, нормальная практика или зашквар

Сообщение sammy99 »

ollama это инструмент чтобы запустить модель не понимая что делаешь. дома норм, в проде ему делать нечего, точка
👍3 ❤️1 🔥 😄 🤔
Аватара пользователя
tavogo
Сообщения: 21
Зарегистрирован: 16 май 2026, 20:29

Re: Ollama в проде, нормальная практика или зашквар

Сообщение tavogo »

@kernel_pn1c ну понеслась. У нас ollama крутится полтора года на внутреннем сервисе, человек 15-20, polling раз в минуту, никто не жаловался ни разу. Не всем нужен хайлоад, иногда работает и не трогай важнее ваших батчингов. Снобизм какой-то.
👍1 ❤️1 🔥 😄 🤔1
Аватара пользователя
puto
Сообщения: 40
Зарегистрирован: 11 май 2026, 06:02

Re: Ollama в проде, нормальная практика или зашквар

Сообщение puto »

есть же третий путь, голый llama-server из llama.cpp. без магии ollama, но и без питонового ада vllm с его конфликтами зависимостей. -parallel 8, кэш промптов, openai-совместимый api из коробки. для 30 человек за глаза
👍2 ❤️ 🔥1 😄 🤔
Аватара пользователя
vaultwizard
Сообщения: 14
Зарегистрирован: 17 май 2026, 14:18

Re: Ollama в проде, нормальная практика или зашквар

Сообщение vaultwizard »

Главная подстава ollama даже не скорость. Дефолтный num_ctx. Он молча режет контекст, твой RAG сует в модель 8к токенов документов, а она видит хвост. Потом сидишь неделю и думаешь, почему ответы дичь, а в логах все зелененькое. Наступал лично, дважды.
👍1 ❤️1 🔥1 😄1 🤔
Аватара пользователя
rojo7509
Сообщения: 38
Зарегистрирован: 12 май 2026, 13:19

Re: Ollama в проде, нормальная практика или зашквар

Сообщение rojo7509 »

а почему все забыли про sglang? на наших тестах qwen он гонял быстрее vllm процентов на 15, и radix cache для rag сценария прям заходит, префиксы то одинаковые
👍1 ❤️2 🔥 😄 🤔
Аватара пользователя
py_wizard
Сообщения: 28
Зарегистрирован: 19 май 2026, 15:41

Re: Ollama в проде, нормальная практика или зашквар

Сообщение py_wizard »

оффтоп, но докер с gpu на проде сам по себе мина. nvidia-container-toolkit обновился и у нас в пятницу вечером все легло, контейнеры карту потеряли. так что что ollama что vllm, сначала закрепите версии тулкита
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
vlad98
Сообщения: 11
Зарегистрирован: 22 май 2026, 15:45

Re: Ollama в проде, нормальная практика или зашквар

Сообщение vlad98 »

+1 за vllm. ollama на маке дома, на сервере взрослые инструменты. девопсу передай что docker pull это не архитектурное решение
👍1 ❤️ 🔥2 😄 🤔1
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя