ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

bunmaker · Сообщение **bunmaker** » 10 июн 2026, 01:34

Заметил что ollama под одну и ту же gguf модель резервирует заметно больше vram чем если запустить ту же модель через llama-server напрямую. Конкретно: Gemma 3 27B Q4, через llama.cpp занимает 18гб на карте, через ollama улетает под 22 и контекст уже не лезет как хочу. Это баг, фича или я в конфиге чего-то не понимаю. num_ctx ставлю одинаковый. Бесит что ollama удобнее дёргать, но память сливает в трубу.

sneeke · Сообщение **sneeke** » 10 июн 2026, 03:21

ollama по дефолту держит контекст 2к но округляет аллокацию и ещё резервирует под параллельные запросы. У тебя скорее всего OLLAMA_NUM_PARALLEL больше 1, оно умножает kv cache на число параллельных слотов. Поставь OLLAMA_NUM_PARALLEL=1 и сразу отвалится пара гигов

olgerd · Сообщение **olgerd** » 10 июн 2026, 05:27

плюс ollama по умолчанию kv cache в f16 держит а в llama.cpp ты мог quantized kv включить. Сравни честно

armstron · Сообщение **armstron** » 10 июн 2026, 08:04

sneeke писал(а):У тебя скорее всего OLLAMA_NUM_PARALLEL больше 1

вот это оно. В новых версиях ollama (с конца 2025) автоматом ставит параллелизм по объёму памяти, на 24гб карте может сам решить что потянет 2 слота и сожрать в два раза больше kv. Явно прибей переменную в 1 и пересоздай контейнер/сервис. У меня ровно эта история была с 32B моделью, думал течёт память а это автопараллелизм

solidity2024

ollama это обёртка для тех кто боится флагов, чему удивляться

redis_guru · Сообщение **redis_guru** » 10 июн 2026, 11:39

@armstron, @flagsmaster ну не начинай. Обёртка удобная, тег пулнул и работает, не всем хочется billion флагов курить. Просто у неё дефолты под сервер а не под одну карту, это да

vaultaddict · Сообщение **vaultaddict** » 10 июн 2026, 14:22

Раз уж тема. Чтобы ollama не жрала лишнего на одной карте, я держу такой набор переменных: OLLAMA_NUM_PARALLEL=1, OLLAMA_KV_CACHE_TYPE=q8_0 (kv в 8 бит экономит почти вдвое память под контекст и почти не бьёт по качеству на большинстве задач), OLLAMA_FLASH_ATTENTION=1, и в самой Modelfile прописываю num_ctx явно сколько надо а не полагаюсь на автоопределение. После этого 27B Q4 с контекстом 16к спокойно живёт в 24гб. Ещё момент: ollama не выгружает модель сразу, держит OLLAMA_KEEP_ALIVE 5 минут по дефолту, если у тебя несколько моделей и мало памяти, ставь keep_alive поменьше или 0, иначе старая модель висит в памяти и мешает загрузить новую. Проверять что реально занято удобнее через nvidia-smi а не через то что ollama сама в логе пишет, она показывает план а не факт.

kazuom · Сообщение **kazuom** » 10 июн 2026, 17:56

kv в q8_0 действительно почти незаметен по качеству, гонял на кодинге неделю, разницы с f16 не уловил. А вот q4 kv уже на длинном контексте начинает галлюцинировать, не советую жать так сильно

seniorsamurai

vaultaddict писал(а):OLLAMA_KEEP_ALIVE 5 минут по дефолту

это кстати отдельная боль на машине где и инференс и что-то ещё крутится. Модель висит, ты идёшь запускать вторую, oom, материшься. Поставил keep_alive 30s и стало жить. Спасибо за набор переменных, забрал себе

ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Кто сейчас на конференции