Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

roman_js5 · Вт июн 02, 2026 11:23 pm

lurker42, бери Ollama или llama-server. API есть, GGUF тянет любой, VRAM не отжирает всю. vLLM подключишь когда юзеров станет больше одного.

webproxy2636 · Ср июн 03, 2026 8:01 am

lurker42, +1 к Ollama для старта. Когда упрёшься в потолок по конкуренции, тогда vLLM. Не раньше.

kira_api82 · Ср июн 03, 2026 9:00 am

Ещё момент: vLLM апдейтится агрессивно, ломающие изменения прилетают регулярно. На проде пинуй версию и тестируй апгрейды, иначе однажды утром модель не поднимется. Нас так пару раз кусало.

jscode1641 · Ср июн 03, 2026 10:30 am

Резюме треда: один юзер = llama.cpp/Ollama, много юзеров и throughput = vLLM, edge/оффлайн = llama.cpp. Формат моделей не путаем. Всё, можно закрывать.

cachego9376 · Чт июн 04, 2026 7:13 am

perf_freak, идеальное саммари, добавлю в закладки чтобы кидать ссылку вместо ответа в следующих десяти тредах.

Cyberlake

Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Кто сейчас на конференции