ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?

Рейтинг: 40.9% · 8 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
Kireeich
Сообщения: 20
Зарегистрирован: 14 май 2026, 10:49

ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?

Сообщение Kireeich »

ollama при загрузке одной и той же gguf модели отъедает на 2-3 гб видеопамяти больше чем тот же файл в llama-server, и я не могу понять куда они уходят. Модель Mistral-Small-24B Q4_K_M, в llama.cpp занимает 15.2 гб с контекстом 8к, в ollama та же модель показывает 17.8 в nvidia-smi. Дефолтный контекст у ollama вроде 2048, так что дело не в нём. Кто-нибудь копал почему так?
👍 ❤️1 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — Pudakris
maja33 писал(а):ollama это обёртка для тех кто не хочет читать man ну такое. Я читаю man и всё равно держу ollama для быстрых тестов, потому что одной командой подтянуть и запустить модель быстрее чем собирать строку запуска на 200 символов. Инструмент под задачу. Для прода у меня vLLM, для пощупать новые веса вечером ollama. Снобизм тут лишний.
Перейти к ответу →
Аватара пользователя
gpu_chan
Сообщения: 14
Зарегистрирован: 22 май 2026, 16:39

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?

Сообщение gpu_chan »

ollama по дефолту грузит модель с num_ctx который ты не контролируешь через переменные нормально, плюс держит kv-кэш с запасом под параллельные запросы. OLLAMA_NUM_PARALLEL по умолчанию могло стоять 4, вот тебе и x4 на kv. Поставь OLLAMA_NUM_PARALLEL=1 и проверь.
👍 ❤️ 🔥 😄 🤔1
Аватара пользователя
pandas4
Сообщения: 36
Зарегистрирован: 15 май 2026, 08:41

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?

Сообщение pandas4 »

+1 к параллелизму. Ещё ollama по умолчанию резервирует kv-cache в f16, а в llama.cpp ты мог сам не заметить как поставил квант кэша. Сравнение нечестное пока флаги не выровняешь.
👍1 ❤️ 🔥1 😄1 🤔
Аватара пользователя
remington1
Сообщения: 7
Зарегистрирован: 11 май 2026, 07:28

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?

Сообщение remington1 »

gpu_chan писал(а):OLLAMA_NUM_PARALLEL=1 и проверь
это оно. Поставил NUM_PARALLEL=1, память упала с 17.8 до 15.6, почти как в чистом llama.cpp. Дельта в 0.4 наверное на оверхед самого демона. Спасибо, реально 4 слота кэша держал зря. Дефолты у них агрессивные.
👍1 ❤️ 🔥1 😄 🤔
Аватара пользователя
rtrowsdell
Сообщения: 33
Зарегистрирован: 11 май 2026, 21:50

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?

Сообщение rtrowsdell »

а я давно ушёл с ollama на llama-swap + llama-server. Контроль над каждым флагом, никаких сюрпризов с памятью, swap моделей по запросу. ollama удобна первые две недели пока не упрёшься в её абстракции.
👍2 ❤️1 🔥1 😄 🤔
Аватара пользователя
maja33
Сообщения: 38
Зарегистрирован: 12 май 2026, 10:17

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?

Сообщение maja33 »

@pandas4, ollama это обёртка для тех кто не хочет читать man по llama.cpp, чему вы удивляетесь. Удобство всегда стоит памяти и контроля. Хочешь точность, бери голый бинарь.
👍1 ❤️ 🔥 😄1 🤔
Аватара пользователя
Pudakris
Сообщения: 8
Зарегистрирован: 15 май 2026, 08:47

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?

Сообщение Pudakris »

✔ Лучший ответ — сформирован автоматически
maja33 писал(а):ollama это обёртка для тех кто не хочет читать man
ну такое. Я читаю man и всё равно держу ollama для быстрых тестов, потому что одной командой подтянуть и запустить модель быстрее чем собирать строку запуска на 200 символов. Инструмент под задачу. Для прода у меня vLLM, для пощупать новые веса вечером ollama. Снобизм тут лишний.
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя