Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?
Рейтинг: 45.3% · 9 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?
Два года сидел на Ollama и всем её советовал. Сегодня снёс и хочу проговорить, почему — может, кого-то уберегу от своих граблей, а может, переубедите меня обратно.
Накопилось три вещи. Первая — дефолтный контекст. Ollama до сих пор молча обрезает промпт до num_ctx, и если не прописать параметр в Modelfile или в API-вызове, модель просто теряет середину длинного запроса без единого ворнинга. Я неделю дебажил «тупеющий» RAG, пока не понял, что туда уезжает 20к токенов, а модель видит четыре. Вторая — поддержка новых архитектур отстаёт: под GLM-4.6 в llama.cpp народ гонял GGUF недели за две до того, как оно нормально заработало в Ollama, с Qwen3-Next история повторилась. Третья — вектор развития: открываешь ollama list, а там вперемешку локальные модели и cloud-варианты с ценником. Я ставил инструмент для локального инференса, а не витрину чужого облака.
Переехал на связку llama-server + llama-swap как роутер. llama-swap слушает один порт, по имени модели в OpenAI-совместимом запросе сам поднимает нужный llama-server и выгружает его по ttl. Конфиг на модель — пять строк:
models:
qwen3-30b:
cmd: llama-server -m /models/Qwen3-30B-A3B-Q4_K_M.gguf -c 32768 -fa --jinja --port ${PORT}
ttl: 300
Бонусом на той же 3090: Qwen3-30B-A3B в Ollama давала мне 41 т/с, llama-server с флэш-аттеншном — 49 т/с, плюс квантованный KV-кэш (-ctk q8_0 -ctv q8_0), и 32к контекста влезают без боли. Open WebUI и остальные клиенты просто смотрят на порт llama-swap и разницы не замечают.
Из минусов — модели теперь качаешь руками с HF и за версиями следишь сам. Кто ещё переезжал? Что вас держит на Ollama?
Накопилось три вещи. Первая — дефолтный контекст. Ollama до сих пор молча обрезает промпт до num_ctx, и если не прописать параметр в Modelfile или в API-вызове, модель просто теряет середину длинного запроса без единого ворнинга. Я неделю дебажил «тупеющий» RAG, пока не понял, что туда уезжает 20к токенов, а модель видит четыре. Вторая — поддержка новых архитектур отстаёт: под GLM-4.6 в llama.cpp народ гонял GGUF недели за две до того, как оно нормально заработало в Ollama, с Qwen3-Next история повторилась. Третья — вектор развития: открываешь ollama list, а там вперемешку локальные модели и cloud-варианты с ценником. Я ставил инструмент для локального инференса, а не витрину чужого облака.
Переехал на связку llama-server + llama-swap как роутер. llama-swap слушает один порт, по имени модели в OpenAI-совместимом запросе сам поднимает нужный llama-server и выгружает его по ttl. Конфиг на модель — пять строк:
models:
qwen3-30b:
cmd: llama-server -m /models/Qwen3-30B-A3B-Q4_K_M.gguf -c 32768 -fa --jinja --port ${PORT}
ttl: 300
Бонусом на той же 3090: Qwen3-30B-A3B в Ollama давала мне 41 т/с, llama-server с флэш-аттеншном — 49 т/с, плюс квантованный KV-кэш (-ctk q8_0 -ctv q8_0), и 32к контекста влезают без боли. Open WebUI и остальные клиенты просто смотрят на порт llama-swap и разницы не замечают.
Из минусов — модели теперь качаешь руками с HF и за версиями следишь сам. Кто ещё переезжал? Что вас держит на Ollama?
✔ Лучший ответ сформирован автоматически — navspy
Поддержу про llama-swap, мы на нём держим инференс на отдел из 12 человек — одна машина с двумя 3090. Пара моментов, которые в доках легко пропустить. Во-первых, groups позволяют держать несколько моделей одновременно: у нас постоянно висит эмбеддер для RAG, а большие модели свопаются. Во-вторых, macros сильно чистят конфиг — общие флаги вроде -fa --jinja -ngl 99 выносятся в одно место. В-третьих…
Re: Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?
У меня доверие кончилось ровно в момент, когда в ollama list появились cloud-модели, а в новостях — подписка. Классика жанра: сначала открытый инструмент собирает комьюнити, потом инвесторам нужно что-то монетизировать. Дальше по учебнику.
Из практичного: держите зеркало моделей на NAS. С региональными тарифами и нестабильным доступом к HF перекачивать 60 гигов из-за смены формата хранения — удовольствие сильно ниже среднего.
Из практичного: держите зеркало моделей на NAS. С региональными тарифами и нестабильным доступом к HF перекачивать 60 гигов из-за смены формата хранения — удовольствие сильно ниже среднего.
Re: Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?
Держит то, что она работает у людей, которые не хотят разбираться во флагах llama-server. Я админю чат по локалкам — из сотни вопросов «как запустить модель» девяносто решаются через ollama run, и человек получает результат за пять минут. Претензии твои справедливы для продвинутых, но для входа в тему удобнее пока ничего нет.
И справедливости ради: мультимодалки в их новом движке заводились раньше и стабильнее, чем в голом llama.cpp, я это с Gemma 3 vision прочувствовал.
И справедливости ради: мультимодалки в их новом движке заводились раньше и стабильнее, чем в голом llama.cpp, я это с Gemma 3 vision прочувствовал.
- oldschoolpanic
- Сообщения: 8
- Зарегистрирован: 15 май 2026, 20:49
Re: Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?
Маленький лайфхак для переезжающих: не перекачивайте модели заново. Блобы Ollama — это обычные GGUF, лежат в ~/.ollama/models/blobs под именами sha256-*. Делаете find по файлам больше гигабайта, проверяете каждый запуском llama-server --model — и раскладываете симлинками в свой каталог с человеческими именами. Я так спас 300 с лишним гигов, что при моём дачном тарифе — недели докачки.
По сути спора пришёл к гибриду: на десктопе LM Studio (да, закрытая, зато MLX-бэкенд на маке ощутимо шустрее), на сервере — ровно твоя связка с llama-swap. Ollama осталась на ноуте жены, и там она на своём месте.
По сути спора пришёл к гибриду: на десктопе LM Studio (да, закрытая, зато MLX-бэкенд на маке ощутимо шустрее), на сервере — ровно твоя связка с llama-swap. Ollama осталась на ноуте жены, и там она на своём месте.
Re: Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?
✔ Лучший ответ — сформирован автоматически
Поддержу про llama-swap, мы на нём держим инференс на отдел из 12 человек — одна машина с двумя 3090. Пара моментов, которые в доках легко пропустить.
Во-первых, groups позволяют держать несколько моделей одновременно: у нас постоянно висит эмбеддер для RAG, а большие модели свопаются. Во-вторых, macros сильно чистят конфиг — общие флаги вроде -fa --jinja -ngl 99 выносятся в одно место. В-третьих, ttl подбирайте по железу: выгрузка и подъём 30B с NVMe — секунд восемь-десять, для интерактива терпимо, для пайплайнов ставьте подольше.
Когда упёрлись в параллельные запросы, сходили в сторону vLLM — и вернулись: на 24-гиговых картах с квантами жизнь грустная, а под наш сценарий (один-два одновременных тяжёлых запроса) хватает llama-server с --parallel 2. vLLM оправдан, когда у вас A100 и десятки конкурентных сессий.
А вот за что Ollama всё-таки спасибо — она приучила людей, что локальная модель это просто и нормально. Дальше народ дорастает и уходит, естественный путь.
Во-первых, groups позволяют держать несколько моделей одновременно: у нас постоянно висит эмбеддер для RAG, а большие модели свопаются. Во-вторых, macros сильно чистят конфиг — общие флаги вроде -fa --jinja -ngl 99 выносятся в одно место. В-третьих, ttl подбирайте по железу: выгрузка и подъём 30B с NVMe — секунд восемь-десять, для интерактива терпимо, для пайплайнов ставьте подольше.
Когда упёрлись в параллельные запросы, сходили в сторону vLLM — и вернулись: на 24-гиговых картах с квантами жизнь грустная, а под наш сценарий (один-два одновременных тяжёлых запроса) хватает llama-server с --parallel 2. vLLM оправдан, когда у вас A100 и десятки конкурентных сессий.
А вот за что Ollama всё-таки спасибо — она приучила людей, что локальная модель это просто и нормально. Дальше народ дорастает и уходит, естественный путь.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Pixel 9 Pro после мартовского Pixel Drop жрёт батарею в простое — у кого так же?
21 ответов · 1417 просмотров
-
- Банк-клиент отвалился после прошивки LineageOS — Play Integrity снова закрутили гайки
16 ответов · 1234 просмотров
-
- Claude Code после compaction забывает решения по схеме БД и переделывает заново
8 ответов · 1215 просмотров
-
- Переехали с Kubernetes на docker-compose и сэкономили кучу времени — кто ещё так делал?
16 ответов · 1187 просмотров
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость