vllm vs llama.cpp

Когда доходит до self-hosted инференса, выбор почти всегда сводится к двум движкам, и каждый тянет в свою сторону: vLLM с тензорным параллелизмом и пропускной способностью под нагрузку против llama.cpp с его простотой и нетребовательностью к железу. Тут меряют скорость токенов на одной A100, 4090 или обычной видяхе, обсуждают, кому нужен PagedAttention, а кто угробил выходные на vLLM и откатился обратно. Материал для тех, кто поднимает собственный API и хочет цифры с прода, а не маркетинговые графики.

6 тем, 42 ответов, 5 просмотров · все теги

Похожие теги: батчинг токенов 2self-hosted инференс llm 1прод ml инференс 1локальный api llm 14090 инференс 1скорость инференса llm 1a100 инференс 1vllm настройка проблемы 1тензор параллелизм 2x3090 1скорость инференса gpu 1батчинг llm локально 1батчинг инференс 1свой llm api нагрузка 1