cpu инференс

Запуск больших языковых моблей на процессоре без топовой видеокарты звучал как мем ровно до появления MoE-архитектур. Сюда несут конкретику: Qwen3.6 235B на б/у Epyc, Qwen3.5-40B-A4B, которая влезает в 32 гига обычной RAM, замеры скорости в токенах и расклад по цене сборки в районе 100к. Обсуждают пропускную способность памяти, число каналов, выбор llama.cpp под CPU и где упирается потолок. Тема для тех, кто хочет локальный инференс дома, но не готов вкладываться в стойку из GPU.

3 тем, 21 ответов, 12 просмотров · все теги

Похожие теги: MoE 3Epyc 2ik_llama.cpp 2Qwen 1новые модели 1