Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?

grumpylurker

Назрел апгрейд. Сейчас сижу на одной 3060 12гб, гоняю мелочь типа Qwen3-8B, но хочется нормально крутить большие MoE дома. Бюджет примерно 200к.

Варианта два:
1. Миник на Ryzen AI Max+ 395 со 128гб unified памяти (Beelink GTR9 Pro или Framework Desktop, на авито возят за 170-190к).
2. Две б/у 3090 по 55-60к + платформа на б/у эпике или обычный десктоп с двумя слотами, итого тоже под 200.

Смущает что у Strix Halo пропускная памяти всего ~256 гб/с против ~936 на каждой 3090. Но 48гб vram это потолок для 70B в Q4, а на 128гб влезает gpt-oss-120b и даже Qwen3-235B в Q2-Q3.

Кто реально живет с тем или другим, поделитесь циферками токенов в секунду. Особенно интересен prompt processing на длинном контексте, я в основном код гоняю через агентов.

kernel2 · Сообщение **kernel2** » 11 июн 2026, 23:14

бери 3090 и не выдумывай. CUDA есть CUDA, под ROCm до сих пор половина стека через одно место собирается. exllamav3, vllm, tensorrt, на зеленых это все просто работает

KubeSmith · Сообщение **KubeSmith** » 12 июн 2026, 01:18

У меня как раз GTR9 на 395м с февраля, до этого была пара 3090. Расклад такой.

Что реально получаю на llama.cpp (Vulkan, свежие сборки):
- gpt-oss-120b (mxfp4): 33-35 t/s генерация, prompt processing в районе 350-400 t/s
- Qwen3-30B-A3B: за 60 t/s, тут вообще летает
- GLM-4.5-Air Q4: ~22 t/s
- плотный 70B Q4: 4.5-5 t/s, вот это уже больно

Эпоха сейчас MoE-шная, плотные 70B почти никто не выпускает, активных параметров у новых моделей 3-22B, и низкая ПСП во многом компенсируется. На паре 3090 я gpt-oss-120b целиком в vram не запихивал, с оффлоадом на проц было хуже чем сейчас на минике.

Но prompt processing это правда слабое место. 30к контекста на 120b пережевывает где-то минуту с лишним. Если у тебя агентный кодинг с постоянным перечитыванием репы, будет бесить. Зато ест 130 ватт против 700+ у пары 3090, с нынешними тарифами на свет тоже аргумент.

envoy69 · Сообщение **envoy69** » 12 июн 2026, 06:13

KubeSmith писал(а):30к контекста на 120b пережевывает где-то минуту с лишним

вот это и есть приговор для ОПа. он же написал что гоняет код через агентов. агент за сессию раз двадцать перечитывает контекст, минута на каждый заход превращается в полчаса тупого ожидания. для чатика миник топ, для кодинга только карты с нормальным compute

dougo1 · Сообщение **dougo1** » 12 июн 2026, 06:20

две 3090 зимой кстати неплохо заменяют обогреватель, проверено. летом правда квартира превращается в сауну, андервольт до 280вт обязателен, теряешь процентов 5 скорости и не плавишься

async2025 · Сообщение **async2025** » 12 июн 2026, 08:40

kernel2 писал(а):под ROCm до сих пор половина стека через одно место собирается

уже не совсем так. llama.cpp на Vulkan вообще не требует ROCm и работает из коробки, lemonade server тоже. да, vllm на 395м это боль, не спорю. но для домашнего инференса llama.cpp закрывает 95% задач. другое дело что тренить лоры на этой штуке ты не будешь, тут зеленые вне конкуренции

zfspro · Сообщение **zfspro** » 12 июн 2026, 08:52

спасибо, картина ясна. под агентов похоже все-таки 3090, а через годик посмотрю на Medusa Halo, обещают ПСП почти вдвое выше. если не наврут как обычно

Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?

Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?

Re: Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?

Re: Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?

Re: Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?

Re: Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?

Re: Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?

Re: Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?

Кто сейчас на конференции