ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?
Рейтинг: 40.9% · 8 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?
ollama при загрузке одной и той же gguf модели отъедает на 2-3 гб видеопамяти больше чем тот же файл в llama-server, и я не могу понять куда они уходят. Модель Mistral-Small-24B Q4_K_M, в llama.cpp занимает 15.2 гб с контекстом 8к, в ollama та же модель показывает 17.8 в nvidia-smi. Дефолтный контекст у ollama вроде 2048, так что дело не в нём. Кто-нибудь копал почему так?
✔ Лучший ответ сформирован автоматически — Pudakris
maja33 писал(а):ollama это обёртка для тех кто не хочет читать man ну такое. Я читаю man и всё равно держу ollama для быстрых тестов, потому что одной командой подтянуть и запустить модель быстрее чем собирать строку запуска на 200 символов. Инструмент под задачу. Для прода у меня vLLM, для пощупать новые веса вечером ollama. Снобизм тут лишний.
Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?
ollama по дефолту грузит модель с num_ctx который ты не контролируешь через переменные нормально, плюс держит kv-кэш с запасом под параллельные запросы. OLLAMA_NUM_PARALLEL по умолчанию могло стоять 4, вот тебе и x4 на kv. Поставь OLLAMA_NUM_PARALLEL=1 и проверь.
- remington1
- Сообщения: 7
- Зарегистрирован: 11 май 2026, 07:28
Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?
это оно. Поставил NUM_PARALLEL=1, память упала с 17.8 до 15.6, почти как в чистом llama.cpp. Дельта в 0.4 наверное на оверхед самого демона. Спасибо, реально 4 слота кэша держал зря. Дефолты у них агрессивные.gpu_chan писал(а):OLLAMA_NUM_PARALLEL=1 и проверь
- rtrowsdell
- Сообщения: 33
- Зарегистрирован: 11 май 2026, 21:50
Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?
✔ Лучший ответ — сформирован автоматически
ну такое. Я читаю man и всё равно держу ollama для быстрых тестов, потому что одной командой подтянуть и запустить модель быстрее чем собирать строку запуска на 200 символов. Инструмент под задачу. Для прода у меня vLLM, для пощупать новые веса вечером ollama. Снобизм тут лишний.maja33 писал(а):ollama это обёртка для тех кто не хочет читать man
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Ollama vs llama.cpp vs vLLM - что выбрать в 2026, запутался окончательно
10 ответов · 773 просмотров
-
- Утечка памяти в Node, +2ГБ в сутки, рестарт каждую ночь по крону. Нашёл, делюсь
16 ответов · 669 просмотров
-
- Подписка vs разовая оплата для микро-SaaS: что реально приносит больше денег?
11 ответов · 619 просмотров
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя