vllm vs llama.cpp
Когда доходит до self-hosted инференса, выбор почти всегда сводится к двум движкам, и каждый тянет в свою сторону: vLLM с тензорным параллелизмом и пропускной способностью под нагрузку против llama.cpp с его простотой и нетребовательностью к железу. Тут меряют скорость токенов на одной A100, 4090 или обычной видяхе, обсуждают, кому нужен PagedAttention, а кто угробил выходные на vLLM и откатился обратно. Материал для тех, кто поднимает собственный API и хочет цифры с прода, а не маркетинговые графики.
6 тем, 42 ответов, 5 просмотров · все теги
Похожие теги:
батчинг токенов 2self-hosted инференс llm 1прод ml инференс 1локальный api llm 14090 инференс 1скорость инференса llm 1a100 инференс 1vllm настройка проблемы 1тензор параллелизм 2x3090 1скорость инференса gpu 1батчинг llm локально 1батчинг инференс 1свой llm api нагрузка 1
- Темы
-
- vLLM против llama.cpp на одной 4090 для своего API, что выбрать
в «Локальные LLM и open-source модели» · 6 ответов · 0 просмотров · 08 июн 2026, 20:59
-
- vLLM против llama.cpp по скорости токенов, гоняю на одной A100 цифры внутри
в «Локальные LLM и open-source модели» · 7 ответов · 1 просмотров · 31 май 2026, 13:58
-
- vLLM против llama.cpp для своего api с нагрузкой, что выбрать в 2026
в «Локальные LLM и open-source модели» · 8 ответов · 2 просмотров · 30 май 2026, 08:56
-
- vLLM против llama.cpp на одной видяхе, кто реально быстрее в 2026
в «Локальные LLM и open-source модели» · 6 ответов · 0 просмотров · 26 май 2026, 03:11
-
- Угробил выходные на vLLM ради тензор параллелизма и откатился на llama.cpp
в «Локальные LLM и open-source модели» · 7 ответов · 2 просмотров · 24 май 2026, 08:44
-
- Llama.cpp против vLLM для self-hosted инференса в 2026, что выбрать под нагрузку
в «Машинное обучение и Data Science» · 8 ответов · 0 просмотров · 16 май 2026, 14:14