Почему в 2026 каждый туториал по локалкам начинается с ollama

nedati · Сообщение **nedati** » 24 май 2026, 18:22

Серьезно, открываешь любой гайд, хоть на хабре, хоть на ютубе, везде install ollama и погнали. При том что llama.cpp давно умеет все то же из коробки: llama-server с нормальным веб интерфейсом, openai совместимый api, скачивание модели одной командой через -hf. Нужно жонглировать моделями, ставишь llama-swap и готово.

А что оллама. Дефолтный контекст, про который молчат, и люди потом неделями выясняют почему модель все забывает. Молчаливый квант по умолчанию. Реестр, где модели переименованы как попало, все помнят историю с deepseek r1, когда полстраны думало что гоняет r1 на ноутбуке, а гоняло дистилл на 7b. А теперь в каждом релизе еще и облачный turbo пушат, инструмент для локального запуска продает облако, оцените иронию.

Я не понимаю, это привычка или карго культ?

remotepanic · Сообщение **remotepanic** » 24 май 2026, 22:22

Потому что ollama pull и работает. А твой путь это: найди релиз llama.cpp под свою систему, пойми чем cuda сборка отличается от vulkan, выбери правильный gguf из сорока файлов на странице у bartowski, разберись с флагами. Для человека, который хочет вечером попробовать что это вообще такое, барьер реальный. Я сам сижу на чистом llama-server, но новичку рекомендую олламу и не стыжусь.

k8s2000 · Сообщение **k8s2000** » 24 май 2026, 22:47

@nedati, история с r1 это жесть была, да. до сих пор попадаются кадры, которые на полном серьезе рассказывают как запускали дипсик р1 на ноуте с 16 гигами

sleepyraccoon

+1 к автору. оллама это удобство в обмен на понимание того, что у тебя вообще запущено. размен так себе

misha12 · Сообщение **misha12** » 25 май 2026, 00:13

есть же lm studio, серединка: gui, кванты видно, контекст ползунком, mlx на маках. но сейчас набегут с electron и закрытый код, хах

tiger71 · Сообщение **tiger71** » 25 май 2026, 02:39

душный момент: дефолтный контекст в олламе уже давно подняли, не 2048 как в древние времена. но сути не меняет, молча резать контекст это подстава. сам в свое время два дня дебажил почему rag теряет куски документа, а это num_ctx был

tollie · Сообщение **tollie** » 25 май 2026, 06:28

вы все не о том. нормальные люди с гпу давно на vllm, а llama.cpp и оллама это для маков и пенсионеров. continuous batching, paged attention, тензорный параллелизм, вот это все

heinrich48 · Сообщение **heinrich48** » 25 май 2026, 07:00

@sleepyraccoon, vllm дома для одного юзера это пушка по воробьям. он под нагрузку и батчи заточен, на одной карте для чата профита ноль, а vram под kv кэш отъедает сразу и жадно. и gguf там до сих пор экспериментальный, кванты считай только awq и gptq

redislover · Сообщение **redislover** » 25 май 2026, 08:09

очередной vim против emacs. кому надо быстро, ставит олламу, кому надо контроль, собирает llama.cpp, кому надо раздавать модель команде, берет vllm. тема высосана из пальца, расходимся

Почему в 2026 каждый туториал по локалкам начинается с ollama

Почему в 2026 каждый туториал по локалкам начинается с ollama

Re: Почему в 2026 каждый туториал по локалкам начинается с ollama

Re: Почему в 2026 каждый туториал по локалкам начинается с ollama

Re: Почему в 2026 каждый туториал по локалкам начинается с ollama

Re: Почему в 2026 каждый туториал по локалкам начинается с ollama

Re: Почему в 2026 каждый туториал по локалкам начинается с ollama

Re: Почему в 2026 каждый туториал по локалкам начинается с ollama

Re: Почему в 2026 каждый туториал по локалкам начинается с ollama

Re: Почему в 2026 каждый туториал по локалкам начинается с ollama

Кто сейчас на конференции