ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp
Рейтинг: 34.2% · 2 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- HaskellGuru
- Сообщения: 12
- Зарегистрирован: 17 май 2026, 00:52
ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp
ollama подкупает простотой но меня бесит что под капотом он переименовывает модели и непонятно какой именно квант ты качаешь. ollama run qwen2.5 тянет какой то свой Q4_0 по дефолту, а не Q4_K_M который заметно лучше при том же размере. плюс свой формат блобов, свой демон который висит в памяти, и кастомизировать флаги llama.cpp нормально нельзя. кто переехал на чистый llama.cpp или llama-server, оно того стоило или я придираюсь?
✔ Лучший ответ сформирован автоматически — mjp1982
я гибридно. модели качаю с huggingface руками, кладу в gguf, а запускаю через llama-swap чтобы хотдко переключать модели по запросу как ollama умеет, но на чистом llama.cpp бэкенде. лучшее из двух. llama-swap это маленький прокси, держит конфиг с моделями, поднимает llama-server по требованию и гасит неактивные. для дев машины с парой моделей идеально, памяти не ест когда не юзаешь.
Re: ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp
стоило. llama-server даёт OpenAI совместимый эндпоинт, грузишь любой gguf откуда хочешь, флаги все твои. единственное надо самому разобраться с -ngl, контекстом, шаблоном промпта. ollama это обертка для тех кто не хочет читать, ты явно хочешь.
Re: ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp
@HaskellGuru, придираешься. для 90% задач ollama ровно то что нужно, запустил и работает. не всем интересно дрочить флаги.
Re: ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp
флаги это не дрочево а контроль над тем что у тебя реально крутится. когда ollama по дефолту дает Q4_0 а человек думает что у него норм квант и потом удивляется почему модель тупее чем у соседа, вот это проблема. удобство которое скрывает важное это плохое удобство.sabaza писал(а):не всем интересно дрочить флаги
Re: ollama это удобно но врёт про модели и жрёт лишнее, кто слезал на llama.cpp
✔ Лучший ответ — сформирован автоматически
я гибридно. модели качаю с huggingface руками, кладу в gguf, а запускаю через llama-swap чтобы хотдко переключать модели по запросу как ollama умеет, но на чистом llama.cpp бэкенде. лучшее из двух. llama-swap это маленький прокси, держит конфиг с моделями, поднимает llama-server по требованию и гасит неактивные. для дев машины с парой моделей идеально, памяти не ест когда не юзаешь.
- golanglover
- Сообщения: 14
- Зарегистрирован: 26 май 2026, 21:49
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Ollama vs llama.cpp vs vLLM - что выбрать в 2026, запутался окончательно
10 ответов · 773 просмотров
-
-
-
-
- Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?
6 ответов · 21 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость