ollama vs llama.cpp

Удобный запуск моделей в одну команду имеет цену: Ollama нередко жрет заметно больше памяти на той же модели и порой темнит с тем, что под капотом реально загружено. Участники сравнивают накладные расходы против чистого llama.cpp, разбирают квантование, выгрузку слоев и причины слезть с обертки ради контроля и экономии VRAM. Раздел для домашнего инференса, где каждый гигабайт памяти на счету, а прозрачность важнее красивого CLI.

3 тем, 21 ответов, 0 просмотров · все теги

Темы

ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?
в «Локальные LLM и open-source модели» · 6 ответов · 0 просмотров · 12 июн 2026, 04:26
ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели
в «Локальные LLM и open-source модели» · 8 ответов · 0 просмотров · 10 июн 2026, 22:05
ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp
в «Локальные LLM и open-source модели» · 7 ответов · 0 просмотров · 29 май 2026, 02:23