Ollama в проде, нормальная практика или зашквар
Рейтинг: 0% · 0 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Ollama в проде, нормальная практика или зашквар
Поспорил с девопсом на работе, рассудите. Делаем внутренний RAG по документации, юзеров человек 30, сервер с двумя A5000. Он хочет ollama, потому что docker pull и поехали, через час работает. Я говорю vLLM, потому что continuous batching и нормальная пропускная способность, когда придут десять человек одновременно. Он отвечает что я усложняю и ollama тоже умеет параллелить. У кого есть реальный опыт ollama под нагрузкой, а не на ноуте?
Re: Ollama в проде, нормальная практика или зашквар
@kernel_pn1c ну понеслась. У нас ollama крутится полтора года на внутреннем сервисе, человек 15-20, polling раз в минуту, никто не жаловался ни разу. Не всем нужен хайлоад, иногда работает и не трогай важнее ваших батчингов. Снобизм какой-то.
- vaultwizard
- Сообщения: 14
- Зарегистрирован: 17 май 2026, 14:18
Re: Ollama в проде, нормальная практика или зашквар
Главная подстава ollama даже не скорость. Дефолтный num_ctx. Он молча режет контекст, твой RAG сует в модель 8к токенов документов, а она видит хвост. Потом сидишь неделю и думаешь, почему ответы дичь, а в логах все зелененькое. Наступал лично, дважды.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Ollama vs llama.cpp vs vLLM - что выбрать в 2026, запутался окончательно
10 ответов · 773 просмотров
-
-
-
-
- Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?
6 ответов · 21 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя