ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?

Kireeich · Сообщение **Kireeich** » 11 июн 2026, 12:54

ollama при загрузке одной и той же gguf модели отъедает на 2-3 гб видеопамяти больше чем тот же файл в llama-server, и я не могу понять куда они уходят. Модель Mistral-Small-24B Q4_K_M, в llama.cpp занимает 15.2 гб с контекстом 8к, в ollama та же модель показывает 17.8 в nvidia-smi. Дефолтный контекст у ollama вроде 2048, так что дело не в нём. Кто-нибудь копал почему так?

gpu_chan · Сообщение **gpu_chan** » 11 июн 2026, 13:47

ollama по дефолту грузит модель с num_ctx который ты не контролируешь через переменные нормально, плюс держит kv-кэш с запасом под параллельные запросы. OLLAMA_NUM_PARALLEL по умолчанию могло стоять 4, вот тебе и x4 на kv. Поставь OLLAMA_NUM_PARALLEL=1 и проверь.

pandas4 · Сообщение **pandas4** » 11 июн 2026, 18:36

+1 к параллелизму. Ещё ollama по умолчанию резервирует kv-cache в f16, а в llama.cpp ты мог сам не заметить как поставил квант кэша. Сравнение нечестное пока флаги не выровняешь.

remington1 · Сообщение **remington1** » 11 июн 2026, 19:31

gpu_chan писал(а):OLLAMA_NUM_PARALLEL=1 и проверь

это оно. Поставил NUM_PARALLEL=1, память упала с 17.8 до 15.6, почти как в чистом llama.cpp. Дельта в 0.4 наверное на оверхед самого демона. Спасибо, реально 4 слота кэша держал зря. Дефолты у них агрессивные.

rtrowsdell · Сообщение **rtrowsdell** » 11 июн 2026, 20:00

а я давно ушёл с ollama на llama-swap + llama-server. Контроль над каждым флагом, никаких сюрпризов с памятью, swap моделей по запросу. ollama удобна первые две недели пока не упрёшься в её абстракции.

maja33 · Сообщение **maja33** » 12 июн 2026, 00:22

@pandas4, ollama это обёртка для тех кто не хочет читать man по llama.cpp, чему вы удивляетесь. Удобство всегда стоит памяти и контроля. Хочешь точность, бери голый бинарь.

Pudakris · Сообщение **Pudakris** » 12 июн 2026, 04:26

maja33 писал(а):ollama это обёртка для тех кто не хочет читать man

ну такое. Я читаю man и всё равно держу ollama для быстрых тестов, потому что одной командой подтянуть и запустить модель быстрее чем собирать строку запуска на 200 символов. Инструмент под задачу. Для прода у меня vLLM, для пощупать новые веса вечером ollama. Снобизм тут лишний.

ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?

ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?

Кто сейчас на конференции