ollama в 2026, кто-то еще пользуется или все переросли

harro · Сообщение **harro** » 09 июн 2026, 20:41

Вопрос без наезда (ладно, с небольшим). Кто в 2026 еще сидит на ollama и главное зачем. Слез полгода назад и не понимаю как терпел.

Дефолтный контекст 4096, который он молча обрезает, а потом люди пишут что модель тупая и все забывает. Квант по дефолту один, хочешь другой, иди копайся в тегах. Своя прослойка поверх llama.cpp, которая отстает от апстрима на месяц-два. История с deepseek-r1, когда дистилляты квена обозвали r1 и половина интернета думала что гоняет настоящий дипсик на ноуте. А теперь еще облако свое пихают в каждом релизе.

Перешел на llama-server плюс llama-swap, конфиг в yaml, полный контроль над флагами, модели с hf руками. Порог входа выше, да. Но ollama по ощущениям теперь больше про подписку, чем про локальный запуск.

sepiatone · Сообщение **sepiatone** » 09 июн 2026, 21:22

юзаю и не жужжу. мне надо раз в неделю быстро что-то проверить, ollama run и поехали. не у всех есть желание разбираться в полусотне флагов llama-server. инструмент под задачу, чего воевать то

darthb · Сообщение **darthb** » 10 июн 2026, 01:28

ollama это докер для нейронок. ставится за минуту, работает везде одинаково. душнилы опять воюют с удобством, классика жанра

cohenst1 · Сообщение **cohenst1** » 10 июн 2026, 05:22

harro писал(а):половина интернета думала что гоняет настоящий дипсик на ноуте

вот это было позорище года, кстати. до сих пор в комментах под роликами пишут запустил deepseek на 8 гигах, ага, конечно. семерка квена с дистилляцией это не r1 ни разу, а ollama своим неймингом эту кашу и заварила. за одно это им жирный минус

jodgould · Сообщение **jodgould** » 10 июн 2026, 07:25

посередине есть lm studio. гуи, любые кванты с hf в пару кликов, на маках mlx из коробки, движки обновляются отдельно от морды. электрон правда жрет память как не в себя, но жить можно. на сервере понятно llama-server без вариантов

py87 · Сообщение **py87** » 10 июн 2026, 08:42

darthb писал(а):ollama это докер для нейронок

докер не режет молча контекст до 4к и не подсовывает облачную подписку при апдейте. аналогия была бы честной, если бы докер по дефолту давал контейнеру 64 мега памяти и нигде об этом не писал. удобство, которое незаметно портит результат, это не удобство, это подстава

k8s4 · Сообщение **k8s4** » 10 июн 2026, 09:23

вы спорите про игрушки. в проде vllm и точка, continuous batching, нормальный throughput, метрики. все эти лламы-свапы для домашнего поиграться

seniornullptr

k8s4 писал(а):в проде vllm и точка

тред про домашний инференс вообще-то, перечитай ОП. и попробуй свой vllm поднять на одной 3090 с gguf, ах да, он же их толком не умеет, сиди конверти в awq под каждую модель. дома llama.cpp, в проде vllm, тут даже спорить не о чем

ollama в 2026, кто-то еще пользуется или все переросли

ollama в 2026, кто-то еще пользуется или все переросли

Re: ollama в 2026, кто-то еще пользуется или все переросли

Re: ollama в 2026, кто-то еще пользуется или все переросли

Re: ollama в 2026, кто-то еще пользуется или все переросли

Re: ollama в 2026, кто-то еще пользуется или все переросли

Re: ollama в 2026, кто-то еще пользуется или все переросли

Re: ollama в 2026, кто-то еще пользуется или все переросли

Re: ollama в 2026, кто-то еще пользуется или все переросли

Кто сейчас на конференции