Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?

sneeke · Сообщение **sneeke** » 10 июн 2026, 13:22

Два года сидел на Ollama и всем её советовал. Сегодня снёс и хочу проговорить, почему — может, кого-то уберегу от своих граблей, а может, переубедите меня обратно.

Накопилось три вещи. Первая — дефолтный контекст. Ollama до сих пор молча обрезает промпт до num_ctx, и если не прописать параметр в Modelfile или в API-вызове, модель просто теряет середину длинного запроса без единого ворнинга. Я неделю дебажил «тупеющий» RAG, пока не понял, что туда уезжает 20к токенов, а модель видит четыре. Вторая — поддержка новых архитектур отстаёт: под GLM-4.6 в llama.cpp народ гонял GGUF недели за две до того, как оно нормально заработало в Ollama, с Qwen3-Next история повторилась. Третья — вектор развития: открываешь ollama list, а там вперемешку локальные модели и cloud-варианты с ценником. Я ставил инструмент для локального инференса, а не витрину чужого облака.

Переехал на связку llama-server + llama-swap как роутер. llama-swap слушает один порт, по имени модели в OpenAI-совместимом запросе сам поднимает нужный llama-server и выгружает его по ttl. Конфиг на модель — пять строк:

models:
qwen3-30b:
cmd: llama-server -m /models/Qwen3-30B-A3B-Q4_K_M.gguf -c 32768 -fa --jinja --port ${PORT}
ttl: 300

Бонусом на той же 3090: Qwen3-30B-A3B в Ollama давала мне 41 т/с, llama-server с флэш-аттеншном — 49 т/с, плюс квантованный KV-кэш (-ctk q8_0 -ctv q8_0), и 32к контекста влезают без боли. Open WebUI и остальные клиенты просто смотрят на порт llama-swap и разницы не замечают.

Из минусов — модели теперь качаешь руками с HF и за версиями следишь сам. Кто ещё переезжал? Что вас держит на Ollama?

Austkin · Сообщение **Austkin** » 10 июн 2026, 16:39

У меня доверие кончилось ровно в момент, когда в ollama list появились cloud-модели, а в новостях — подписка. Классика жанра: сначала открытый инструмент собирает комьюнити, потом инвесторам нужно что-то монетизировать. Дальше по учебнику.

Из практичного: держите зеркало моделей на NAS. С региональными тарифами и нестабильным доступом к HF перекачивать 60 гигов из-за смены формата хранения — удовольствие сильно ниже среднего.

alansmit · Сообщение **alansmit** » 10 июн 2026, 16:46

Держит то, что она работает у людей, которые не хотят разбираться во флагах llama-server. Я админю чат по локалкам — из сотни вопросов «как запустить модель» девяносто решаются через ollama run, и человек получает результат за пять минут. Претензии твои справедливы для продвинутых, но для входа в тему удобнее пока ничего нет.

И справедливости ради: мультимодалки в их новом движке заводились раньше и стабильнее, чем в голом llama.cpp, я это с Gemma 3 vision прочувствовал.

oldschoolpanic

Маленький лайфхак для переезжающих: не перекачивайте модели заново. Блобы Ollama — это обычные GGUF, лежат в ~/.ollama/models/blobs под именами sha256-*. Делаете find по файлам больше гигабайта, проверяете каждый запуском llama-server --model — и раскладываете симлинками в свой каталог с человеческими именами. Я так спас 300 с лишним гигов, что при моём дачном тарифе — недели докачки.

По сути спора пришёл к гибриду: на десктопе LM Studio (да, закрытая, зато MLX-бэкенд на маке ощутимо шустрее), на сервере — ровно твоя связка с llama-swap. Ollama осталась на ноуте жены, и там она на своём месте.

navspy · Сообщение **navspy** » 10 июн 2026, 16:52

Поддержу про llama-swap, мы на нём держим инференс на отдел из 12 человек — одна машина с двумя 3090. Пара моментов, которые в доках легко пропустить.

Во-первых, groups позволяют держать несколько моделей одновременно: у нас постоянно висит эмбеддер для RAG, а большие модели свопаются. Во-вторых, macros сильно чистят конфиг — общие флаги вроде -fa --jinja -ngl 99 выносятся в одно место. В-третьих, ttl подбирайте по железу: выгрузка и подъём 30B с NVMe — секунд восемь-десять, для интерактива терпимо, для пайплайнов ставьте подольше.

Когда упёрлись в параллельные запросы, сходили в сторону vLLM — и вернулись: на 24-гиговых картах с квантами жизнь грустная, а под наш сценарий (один-два одновременных тяжёлых запроса) хватает llama-server с --parallel 2. vLLM оправдан, когда у вас A100 и десятки конкурентных сессий.

А вот за что Ollama всё-таки спасибо — она приучила людей, что локальная модель это просто и нормально. Дальше народ дорастает и уходит, естественный путь.

Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?

Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?

Re: Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?

Re: Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?

Re: Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?

Re: Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?

Кто сейчас на конференции