Каждый второй тред: 'юзай vLLM'. Народ, vLLM это про throughput на много юзеров. Для одного человека на одной 3090 он часто медленнее и геморройнее llama.cpp. Меняю мнение?
Не меняешь, всё верно. vLLM раскрывается на конкуренции: PagedAttention, continuous batching, на 50 параллельных запросов он рвёт llama.cpp в десятки раз. На одном запросе профита почти нет.
Плюс формат моделей разный. llama.cpp/ollama это GGUF, vLLM хочет HF + GPTQ/AWQ. Нельзя просто взять свой любимый GGUF и засунуть в vLLM, многие об это спотыкаются.
У нас прод на vLLM, 4x A100, отдаём модель внутренним командам. Альтернатив реально нет, llama.cpp под такой нагрузкой ложится. Так что 'не советуйте всем' это про хоумлаб, а не про прод.
startup_founder, так об этом и речь. Я не против vLLM, я против того что его суют человеку который спросил 'как запустить 8B на ноуте'. Инструмент под задачу.
Кстати у vLLM под нагрузкой бывает head-of-line blocking если неудачно настроить, один тяжёлый запрос тормозит весь батч. Sarathi-style чанкинг префилла спасает, но это уже тюнинг не для новичка.
А я наоборот ушёл с llama.cpp server на vLLM даже для себя, потому что мне нужен нормальный OpenAI-совместимый API с function calling из коробки. У llama.cpp server это есть но костыльнее.