vulkan

Когда ROCm капризничает, а CUDA недоступна, бэкенд Vulkan в llama.cpp становится спасением для разношёрстного железа: им гоняют локальные LLM на AMD Instinct MI50 32GB с Авито и Али, на Intel Arc B580 за 34к и прочих картах, где родные стеки буксуют. Здесь меряют t/s против CUDA, борются с охлаждением серверных ускорителей в домашнем корпусе, собирают мультикарточные сборки и разбираются, где Vulkan уже не дно, а где всё ещё проседает по скорости и стабильности. Полезно тем, кто строит дешёвый инференс-риг из бэушных GPU и не хочет упираться в вендорлок.

3 тем, 16 ответов, 11 просмотров · все теги

Похожие теги: llama.cpp 2mi50 2железо 2бюджетный-инференс 1intel arc 1amd 1