ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели
Рейтинг: 48.7% · 7 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели
Заметил что ollama под одну и ту же gguf модель резервирует заметно больше vram чем если запустить ту же модель через llama-server напрямую. Конкретно: Gemma 3 27B Q4, через llama.cpp занимает 18гб на карте, через ollama улетает под 22 и контекст уже не лезет как хочу. Это баг, фича или я в конфиге чего-то не понимаю. num_ctx ставлю одинаковый. Бесит что ollama удобнее дёргать, но память сливает в трубу.
✔ Лучший ответ сформирован автоматически — vaultaddict
Раз уж тема. Чтобы ollama не жрала лишнего на одной карте, я держу такой набор переменных: OLLAMA_NUM_PARALLEL=1, OLLAMA_KV_CACHE_TYPE=q8_0 (kv в 8 бит экономит почти вдвое память под контекст и почти не бьёт по качеству на большинстве задач), OLLAMA_FLASH_ATTENTION=1, и в самой Modelfile прописываю num_ctx явно сколько надо а не полагаюсь на автоопределение. После этого 27B Q4 с контекстом 16к с…
Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели
ollama по дефолту держит контекст 2к но округляет аллокацию и ещё резервирует под параллельные запросы. У тебя скорее всего OLLAMA_NUM_PARALLEL больше 1, оно умножает kv cache на число параллельных слотов. Поставь OLLAMA_NUM_PARALLEL=1 и сразу отвалится пара гигов
Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели
вот это оно. В новых версиях ollama (с конца 2025) автоматом ставит параллелизм по объёму памяти, на 24гб карте может сам решить что потянет 2 слота и сожрать в два раза больше kv. Явно прибей переменную в 1 и пересоздай контейнер/сервис. У меня ровно эта история была с 32B моделью, думал течёт память а это автопараллелизмsneeke писал(а):У тебя скорее всего OLLAMA_NUM_PARALLEL больше 1
- solidity2024
- Сообщения: 40
- Зарегистрирован: 11 май 2026, 02:34
- redis_guru
- Сообщения: 21
- Зарегистрирован: 12 май 2026, 02:07
- vaultaddict
- Сообщения: 10
- Зарегистрирован: 11 май 2026, 20:49
Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели
✔ Лучший ответ — сформирован автоматически
Раз уж тема. Чтобы ollama не жрала лишнего на одной карте, я держу такой набор переменных: OLLAMA_NUM_PARALLEL=1, OLLAMA_KV_CACHE_TYPE=q8_0 (kv в 8 бит экономит почти вдвое память под контекст и почти не бьёт по качеству на большинстве задач), OLLAMA_FLASH_ATTENTION=1, и в самой Modelfile прописываю num_ctx явно сколько надо а не полагаюсь на автоопределение. После этого 27B Q4 с контекстом 16к спокойно живёт в 24гб. Ещё момент: ollama не выгружает модель сразу, держит OLLAMA_KEEP_ALIVE 5 минут по дефолту, если у тебя несколько моделей и мало памяти, ставь keep_alive поменьше или 0, иначе старая модель висит в памяти и мешает загрузить новую. Проверять что реально занято удобнее через nvidia-smi а не через то что ollama сама в логе пишет, она показывает план а не факт.
- seniorsamurai
- Сообщения: 44
- Зарегистрирован: 15 май 2026, 19:29
Re: ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели
это кстати отдельная боль на машине где и инференс и что-то ещё крутится. Модель висит, ты идёшь запускать вторую, oom, материшься. Поставил keep_alive 30s и стало жить. Спасибо за набор переменных, забрал себеvaultaddict писал(а):OLLAMA_KEEP_ALIVE 5 минут по дефолту
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Ollama vs llama.cpp vs vLLM - что выбрать в 2026, запутался окончательно
10 ответов · 773 просмотров
-
- Утечка памяти в Node, +2ГБ в сутки, рестарт каждую ночь по крону. Нашёл, делюсь
16 ответов · 669 просмотров
-
- Подписка vs разовая оплата для микро-SaaS: что реально приносит больше денег?
11 ответов · 619 просмотров
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость