ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Рейтинг: 48.7% · 7 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
bunmaker
Сообщения: 40
Зарегистрирован: 11 май 2026, 23:26

ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Сообщение bunmaker »

Заметил что ollama под одну и ту же gguf модель резервирует заметно больше vram чем если запустить ту же модель через llama-server напрямую. Конкретно: Gemma 3 27B Q4, через llama.cpp занимает 18гб на карте, через ollama улетает под 22 и контекст уже не лезет как хочу. Это баг, фича или я в конфиге чего-то не понимаю. num_ctx ставлю одинаковый. Бесит что ollama удобнее дёргать, но память сливает в трубу.
👍1 ❤️2 🔥1 😄 🤔
✔ Лучший ответ сформирован автоматически — vaultaddict
Раз уж тема. Чтобы ollama не жрала лишнего на одной карте, я держу такой набор переменных: OLLAMA_NUM_PARALLEL=1, OLLAMA_KV_CACHE_TYPE=q8_0 (kv в 8 бит экономит почти вдвое память под контекст и почти не бьёт по качеству на большинстве задач), OLLAMA_FLASH_ATTENTION=1, и в самой Modelfile прописываю num_ctx явно сколько надо а не полагаюсь на автоопределение. После этого 27B Q4 с контекстом 16к с…
Перейти к ответу →
Аватара пользователя
sneeke
Сообщения: 29
Зарегистрирован: 11 май 2026, 03:15

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Сообщение sneeke »

ollama по дефолту держит контекст 2к но округляет аллокацию и ещё резервирует под параллельные запросы. У тебя скорее всего OLLAMA_NUM_PARALLEL больше 1, оно умножает kv cache на число параллельных слотов. Поставь OLLAMA_NUM_PARALLEL=1 и сразу отвалится пара гигов
👍 ❤️1 🔥 😄 🤔1
Аватара пользователя
olgerd
Сообщения: 22
Зарегистрирован: 17 май 2026, 07:21

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Сообщение olgerd »

плюс ollama по умолчанию kv cache в f16 держит а в llama.cpp ты мог quantized kv включить. Сравни честно
👍 ❤️ 🔥2 😄1 🤔
Аватара пользователя
armstron
Сообщения: 16
Зарегистрирован: 18 май 2026, 19:08

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Сообщение armstron »

sneeke писал(а):У тебя скорее всего OLLAMA_NUM_PARALLEL больше 1
вот это оно. В новых версиях ollama (с конца 2025) автоматом ставит параллелизм по объёму памяти, на 24гб карте может сам решить что потянет 2 слота и сожрать в два раза больше kv. Явно прибей переменную в 1 и пересоздай контейнер/сервис. У меня ровно эта история была с 32B моделью, думал течёт память а это автопараллелизм
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
solidity2024
Сообщения: 40
Зарегистрирован: 11 май 2026, 02:34

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Сообщение solidity2024 »

ollama это обёртка для тех кто боится флагов, чему удивляться
👍2 ❤️ 🔥1 😄 🤔
Аватара пользователя
redis_guru
Сообщения: 21
Зарегистрирован: 12 май 2026, 02:07

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Сообщение redis_guru »

@armstron, @flagsmaster ну не начинай. Обёртка удобная, тег пулнул и работает, не всем хочется billion флагов курить. Просто у неё дефолты под сервер а не под одну карту, это да
👍 ❤️ 🔥 😄 🤔3
Аватара пользователя
vaultaddict
Сообщения: 10
Зарегистрирован: 11 май 2026, 20:49

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Сообщение vaultaddict »

✔ Лучший ответ — сформирован автоматически
Раз уж тема. Чтобы ollama не жрала лишнего на одной карте, я держу такой набор переменных: OLLAMA_NUM_PARALLEL=1, OLLAMA_KV_CACHE_TYPE=q8_0 (kv в 8 бит экономит почти вдвое память под контекст и почти не бьёт по качеству на большинстве задач), OLLAMA_FLASH_ATTENTION=1, и в самой Modelfile прописываю num_ctx явно сколько надо а не полагаюсь на автоопределение. После этого 27B Q4 с контекстом 16к спокойно живёт в 24гб. Ещё момент: ollama не выгружает модель сразу, держит OLLAMA_KEEP_ALIVE 5 минут по дефолту, если у тебя несколько моделей и мало памяти, ставь keep_alive поменьше или 0, иначе старая модель висит в памяти и мешает загрузить новую. Проверять что реально занято удобнее через nvidia-smi а не через то что ollama сама в логе пишет, она показывает план а не факт.
👍2 ❤️1 🔥 😄 🤔
Аватара пользователя
kazuom
Сообщения: 21
Зарегистрирован: 22 май 2026, 16:23

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Сообщение kazuom »

kv в q8_0 действительно почти незаметен по качеству, гонял на кодинге неделю, разницы с f16 не уловил. А вот q4 kv уже на длинном контексте начинает галлюцинировать, не советую жать так сильно
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
seniorsamurai
Сообщения: 44
Зарегистрирован: 15 май 2026, 19:29

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Сообщение seniorsamurai »

vaultaddict писал(а):OLLAMA_KEEP_ALIVE 5 минут по дефолту
это кстати отдельная боль на машине где и инференс и что-то ещё крутится. Модель висит, ты идёшь запускать вторую, oom, материшься. Поставил keep_alive 30s и стало жить. Спасибо за набор переменных, забрал себе
👍 ❤️ 🔥 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость