Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Рейтинг: 19.2% · 30 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Аватара пользователя
kirill_backend
Сообщения: 33
Зарегистрирован: Сб май 16, 2026 5:24 pm

Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Сообщение kirill_backend »

Каждый второй тред: 'юзай vLLM'. Народ, vLLM это про throughput на много юзеров. Для одного человека на одной 3090 он часто медленнее и геморройнее llama.cpp. Меняю мнение?
👍1 ❤️ 🔥 😄1 🤔1
Аватара пользователя
egor9725
Сообщения: 27
Зарегистрирован: Вс май 10, 2026 9:17 pm

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Сообщение egor9725 »

Не меняешь, всё верно. vLLM раскрывается на конкуренции: PagedAttention, continuous batching, на 50 параллельных запросов он рвёт llama.cpp в десятки раз. На одном запросе профита почти нет.
👍2 ❤️ 🔥 😄 🤔
Аватара пользователя
denis9127
Сообщения: 25
Зарегистрирован: Ср май 13, 2026 8:17 am

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Сообщение denis9127 »

Плюс формат моделей разный. llama.cpp/ollama это GGUF, vLLM хочет HF + GPTQ/AWQ. Нельзя просто взять свой любимый GGUF и засунуть в vLLM, многие об это спотыкаются.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
konstantin_async1
Сообщения: 3
Зарегистрирован: Пн май 18, 2026 4:08 pm

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Сообщение konstantin_async1 »

vLLM ещё и VRAM жрёт жадно, он по дефолту резервирует 90% под KV-кэш. На одной карте с десктопом это боль, llama.cpp гибче по памяти.
👍 ❤️ 🔥 😄1 🤔1
Аватара пользователя
makar_root
Сообщения: 28
Зарегистрирован: Пн май 11, 2026 1:09 am

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Сообщение makar_root »

У нас прод на vLLM, 4x A100, отдаём модель внутренним командам. Альтернатив реально нет, llama.cpp под такой нагрузкой ложится. Так что 'не советуйте всем' это про хоумлаб, а не про прод.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
filipp_proxy20
Сообщения: 11
Зарегистрирован: Вс май 10, 2026 10:39 pm

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Сообщение filipp_proxy20 »

startup_founder, так об этом и речь. Я не против vLLM, я против того что его суют человеку который спросил 'как запустить 8B на ноуте'. Инструмент под задачу.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
demid_ssh
Сообщения: 3
Зарегистрирован: Пн май 25, 2026 5:39 am

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Сообщение demid_ssh »

Кстати у vLLM под нагрузкой бывает head-of-line blocking если неудачно настроить, один тяжёлый запрос тормозит весь батч. Sarathi-style чанкинг префилла спасает, но это уже тюнинг не для новичка.
👍4 ❤️1 🔥4 😄 🤔3
Аватара пользователя
dmitry4381
Сообщения: 4
Зарегистрирован: Вт май 19, 2026 12:41 pm

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Сообщение dmitry4381 »

А я наоборот ушёл с llama.cpp server на vLLM даже для себя, потому что мне нужен нормальный OpenAI-совместимый API с function calling из коробки. У llama.cpp server это есть но костыльнее.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
denis6377
Сообщения: 14
Зарегистрирован: Ср май 13, 2026 1:35 am

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Сообщение denis6377 »

anton_py, llama.cpp server давно умеет OpenAI API и tools, ты просто давно не обновлялся. Сейчас разрыв в DX гораздо меньше чем год назад.
👍1 ❤️ 🔥1 😄 🤔1
Аватара пользователя
roman2149
Сообщения: 21
Зарегистрирован: Вт май 12, 2026 10:19 am

Re: Перестаньте советовать vLLM всем подряд, это не замена llama.cpp

Сообщение roman2149 »

а что выбрать если хочется и API и не страдать на одной 4090, просто для пет-проекта
👍1 ❤️ 🔥 😄 🤔2
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей