Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?

Рейтинг: 45.3% · 9 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
sneeke
Сообщения: 29
Зарегистрирован: 11 май 2026, 03:15

Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?

Сообщение sneeke »

Два года сидел на Ollama и всем её советовал. Сегодня снёс и хочу проговорить, почему — может, кого-то уберегу от своих граблей, а может, переубедите меня обратно.

Накопилось три вещи. Первая — дефолтный контекст. Ollama до сих пор молча обрезает промпт до num_ctx, и если не прописать параметр в Modelfile или в API-вызове, модель просто теряет середину длинного запроса без единого ворнинга. Я неделю дебажил «тупеющий» RAG, пока не понял, что туда уезжает 20к токенов, а модель видит четыре. Вторая — поддержка новых архитектур отстаёт: под GLM-4.6 в llama.cpp народ гонял GGUF недели за две до того, как оно нормально заработало в Ollama, с Qwen3-Next история повторилась. Третья — вектор развития: открываешь ollama list, а там вперемешку локальные модели и cloud-варианты с ценником. Я ставил инструмент для локального инференса, а не витрину чужого облака.

Переехал на связку llama-server + llama-swap как роутер. llama-swap слушает один порт, по имени модели в OpenAI-совместимом запросе сам поднимает нужный llama-server и выгружает его по ttl. Конфиг на модель — пять строк:

models:
qwen3-30b:
cmd: llama-server -m /models/Qwen3-30B-A3B-Q4_K_M.gguf -c 32768 -fa --jinja --port ${PORT}
ttl: 300

Бонусом на той же 3090: Qwen3-30B-A3B в Ollama давала мне 41 т/с, llama-server с флэш-аттеншном — 49 т/с, плюс квантованный KV-кэш (-ctk q8_0 -ctv q8_0), и 32к контекста влезают без боли. Open WebUI и остальные клиенты просто смотрят на порт llama-swap и разницы не замечают.

Из минусов — модели теперь качаешь руками с HF и за версиями следишь сам. Кто ещё переезжал? Что вас держит на Ollama?
👍1 ❤️1 🔥 😄1 🤔1
✔ Лучший ответ сформирован автоматически — navspy
Поддержу про llama-swap, мы на нём держим инференс на отдел из 12 человек — одна машина с двумя 3090. Пара моментов, которые в доках легко пропустить. Во-первых, groups позволяют держать несколько моделей одновременно: у нас постоянно висит эмбеддер для RAG, а большие модели свопаются. Во-вторых, macros сильно чистят конфиг — общие флаги вроде -fa --jinja -ngl 99 выносятся в одно место. В-третьих…
Перейти к ответу →
Аватара пользователя
Austkin
Сообщения: 83
Зарегистрирован: 11 май 2026, 03:40

Re: Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?

Сообщение Austkin »

У меня доверие кончилось ровно в момент, когда в ollama list появились cloud-модели, а в новостях — подписка. Классика жанра: сначала открытый инструмент собирает комьюнити, потом инвесторам нужно что-то монетизировать. Дальше по учебнику.

Из практичного: держите зеркало моделей на NAS. С региональными тарифами и нестабильным доступом к HF перекачивать 60 гигов из-за смены формата хранения — удовольствие сильно ниже среднего.
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
alansmit
Сообщения: 84
Зарегистрирован: 13 май 2026, 00:35

Re: Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?

Сообщение alansmit »

Держит то, что она работает у людей, которые не хотят разбираться во флагах llama-server. Я админю чат по локалкам — из сотни вопросов «как запустить модель» девяносто решаются через ollama run, и человек получает результат за пять минут. Претензии твои справедливы для продвинутых, но для входа в тему удобнее пока ничего нет.

И справедливости ради: мультимодалки в их новом движке заводились раньше и стабильнее, чем в голом llama.cpp, я это с Gemma 3 vision прочувствовал.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
oldschoolpanic
Сообщения: 8
Зарегистрирован: 15 май 2026, 20:49

Re: Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?

Сообщение oldschoolpanic »

Маленький лайфхак для переезжающих: не перекачивайте модели заново. Блобы Ollama — это обычные GGUF, лежат в ~/.ollama/models/blobs под именами sha256-*. Делаете find по файлам больше гигабайта, проверяете каждый запуском llama-server --model — и раскладываете симлинками в свой каталог с человеческими именами. Я так спас 300 с лишним гигов, что при моём дачном тарифе — недели докачки.

По сути спора пришёл к гибриду: на десктопе LM Studio (да, закрытая, зато MLX-бэкенд на маке ощутимо шустрее), на сервере — ровно твоя связка с llama-swap. Ollama осталась на ноуте жены, и там она на своём месте.
👍2 ❤️ 🔥1 😄 🤔
Аватара пользователя
navspy
Сообщения: 60
Зарегистрирован: 12 май 2026, 02:48

Re: Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?

Сообщение navspy »

✔ Лучший ответ — сформирован автоматически
Поддержу про llama-swap, мы на нём держим инференс на отдел из 12 человек — одна машина с двумя 3090. Пара моментов, которые в доках легко пропустить.

Во-первых, groups позволяют держать несколько моделей одновременно: у нас постоянно висит эмбеддер для RAG, а большие модели свопаются. Во-вторых, macros сильно чистят конфиг — общие флаги вроде -fa --jinja -ngl 99 выносятся в одно место. В-третьих, ttl подбирайте по железу: выгрузка и подъём 30B с NVMe — секунд восемь-десять, для интерактива терпимо, для пайплайнов ставьте подольше.

Когда упёрлись в параллельные запросы, сходили в сторону vLLM — и вернулись: на 24-гиговых картах с квантами жизнь грустная, а под наш сценарий (один-два одновременных тяжёлых запроса) хватает llama-server с --parallel 2. vLLM оправдан, когда у вас A100 и десятки конкурентных сессий.

А вот за что Ollama всё-таки спасибо — она приучила людей, что локальная модель это просто и нормально. Дальше народ дорастает и уходит, естественный путь.
👍 ❤️2 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя