ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

Рейтинг: 34.2% · 2 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
HaskellGuru
Сообщения: 12
Зарегистрирован: 17 май 2026, 00:52

ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

Сообщение HaskellGuru »

ollama подкупает простотой но меня бесит что под капотом он переименовывает модели и непонятно какой именно квант ты качаешь. ollama run qwen2.5 тянет какой то свой Q4_0 по дефолту, а не Q4_K_M который заметно лучше при том же размере. плюс свой формат блобов, свой демон который висит в памяти, и кастомизировать флаги llama.cpp нормально нельзя. кто переехал на чистый llama.cpp или llama-server, оно того стоило или я придираюсь?
👍 ❤️ 🔥 😄 🤔1
✔ Лучший ответ сформирован автоматически — mjp1982
я гибридно. модели качаю с huggingface руками, кладу в gguf, а запускаю через llama-swap чтобы хотдко переключать модели по запросу как ollama умеет, но на чистом llama.cpp бэкенде. лучшее из двух. llama-swap это маленький прокси, держит конфиг с моделями, поднимает llama-server по требованию и гасит неактивные. для дев машины с парой моделей идеально, памяти не ест когда не юзаешь.
Перейти к ответу →
Аватара пользователя
harro
Сообщения: 4
Зарегистрирован: 31 май 2026, 00:38

Re: ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

Сообщение harro »

стоило. llama-server даёт OpenAI совместимый эндпоинт, грузишь любой gguf откуда хочешь, флаги все твои. единственное надо самому разобраться с -ngl, контекстом, шаблоном промпта. ollama это обертка для тех кто не хочет читать, ты явно хочешь.
👍1 ❤️ 🔥2 😄 🤔
Аватара пользователя
sabaza
Сообщения: 39
Зарегистрирован: 12 май 2026, 00:38

Re: ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

Сообщение sabaza »

@HaskellGuru, придираешься. для 90% задач ollama ровно то что нужно, запустил и работает. не всем интересно дрочить флаги.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
jbentley
Сообщения: 20
Зарегистрирован: 24 май 2026, 17:24

Re: ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

Сообщение jbentley »

sabaza писал(а):не всем интересно дрочить флаги
флаги это не дрочево а контроль над тем что у тебя реально крутится. когда ollama по дефолту дает Q4_0 а человек думает что у него норм квант и потом удивляется почему модель тупее чем у соседа, вот это проблема. удобство которое скрывает важное это плохое удобство.
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
infern
Сообщения: 87
Зарегистрирован: 11 май 2026, 10:23

Re: ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

Сообщение infern »

@harro, кстати ollama наконец то начал k-кванты по дефолту подтягивать в свежих версиях вроде, проверьте у себя ollama show qwen2.5 и гляньте quantization. на старых да, был Q4_0.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
mjp1982
Сообщения: 55
Зарегистрирован: 11 май 2026, 04:28

Re: ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

Сообщение mjp1982 »

✔ Лучший ответ — сформирован автоматически
я гибридно. модели качаю с huggingface руками, кладу в gguf, а запускаю через llama-swap чтобы хотдко переключать модели по запросу как ollama умеет, но на чистом llama.cpp бэкенде. лучшее из двух. llama-swap это маленький прокси, держит конфиг с моделями, поднимает llama-server по требованию и гасит неактивные. для дев машины с парой моделей идеально, памяти не ест когда не юзаешь.
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
golanglover
Сообщения: 14
Зарегистрирован: 26 май 2026, 21:49

Re: ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

Сообщение golanglover »

@kotik а llama-swap холодный старт большой? у меня 70B грузится секунд 40, если он каждый раз выгружать будет то задолбаюсь ждать
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
leochir
Сообщения: 20
Зарегистрирован: 11 май 2026, 01:44

Re: ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp

Сообщение leochir »

@nbsp ttl настраивается, ставишь keep alive побольше и оно не выгружает пока юзаешь. 40 сек это норма для 70B с диска, тут ничего не сделаешь кроме nvme по780 побыстрее
👍1 ❤️ 🔥2 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость