Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

kirill_backend · Пн июн 01, 2026 10:13 pm

Каждый второй тред: 'юзай vLLM'. Народ, vLLM это про throughput на много юзеров. Для одного человека на одной 3090 он часто медленнее и геморройнее llama.cpp. Меняю мнение?

egor9725 · Вт июн 02, 2026 12:34 am

Не меняешь, всё верно. vLLM раскрывается на конкуренции: PagedAttention, continuous batching, на 50 параллельных запросов он рвёт llama.cpp в десятки раз. На одном запросе профита почти нет.

denis9127 · Вт июн 02, 2026 3:44 am

Плюс формат моделей разный. llama.cpp/ollama это GGUF, vLLM хочет HF + GPTQ/AWQ. Нельзя просто взять свой любимый GGUF и засунуть в vLLM, многие об это спотыкаются.

konstantin_async1 · Вт июн 02, 2026 5:25 am

vLLM ещё и VRAM жрёт жадно, он по дефолту резервирует 90% под KV-кэш. На одной карте с десктопом это боль, llama.cpp гибче по памяти.

makar_root · Вт июн 02, 2026 5:41 am

У нас прод на vLLM, 4x A100, отдаём модель внутренним командам. Альтернатив реально нет, llama.cpp под такой нагрузкой ложится. Так что 'не советуйте всем' это про хоумлаб, а не про прод.

filipp_proxy20 · Вт июн 02, 2026 12:18 pm

startup_founder, так об этом и речь. Я не против vLLM, я против того что его суют человеку который спросил 'как запустить 8B на ноуте'. Инструмент под задачу.

demid_ssh · Вт июн 02, 2026 4:37 pm

Кстати у vLLM под нагрузкой бывает head-of-line blocking если неудачно настроить, один тяжёлый запрос тормозит весь батч. Sarathi-style чанкинг префилла спасает, но это уже тюнинг не для новичка.

dmitry4381 · Вт июн 02, 2026 5:15 pm

А я наоборот ушёл с llama.cpp server на vLLM даже для себя, потому что мне нужен нормальный OpenAI-совместимый API с function calling из коробки. У llama.cpp server это есть но костыльнее.

denis6377 · Вт июн 02, 2026 6:45 pm

anton_py, llama.cpp server давно умеет OpenAI API и tools, ты просто давно не обновлялся. Сейчас разрыв в DX гораздо меньше чем год назад.

roman2149 · Вт июн 02, 2026 10:56 pm

а что выбрать если хочется и API и не страдать на одной 4090, просто для пет-проекта

Cyberlake

Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Кто сейчас на конференции