cpu инференс
Запуск больших языковых моблей на процессоре без топовой видеокарты звучал как мем ровно до появления MoE-архитектур. Сюда несут конкретику: Qwen3.6 235B на б/у Epyc, Qwen3.5-40B-A4B, которая влезает в 32 гига обычной RAM, замеры скорости в токенах и расклад по цене сборки в районе 100к. Обсуждают пропускную способность памяти, число каналов, выбор llama.cpp под CPU и где упирается потолок. Тема для тех, кто хочет локальный инференс дома, но не готов вкладываться в стойку из GPU.
3 тем, 21 ответов, 12 просмотров · все теги
- Темы
-
- Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами
в «Локальные LLM и open-source модели» · 10 ответов · 7 просмотров · 11 июн 2026, 23:21
-
- Qwen3.5-40B-A4B вышла, apache 2.0. MoE, которая влезает в 32 гига обычной RAM
в «Локальные LLM и open-source модели» · 4 ответов · 3 просмотров · 18 май 2026, 05:37
-
- Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем
в «Локальные LLM и open-source модели» · 7 ответов · 2 просмотров · 13 май 2026, 19:15