Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?
Рейтинг: 34.2% · 2 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- grumpylurker
- Сообщения: 63
- Зарегистрирован: 15 май 2026, 01:41
Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?
Назрел апгрейд. Сейчас сижу на одной 3060 12гб, гоняю мелочь типа Qwen3-8B, но хочется нормально крутить большие MoE дома. Бюджет примерно 200к.
Варианта два:
1. Миник на Ryzen AI Max+ 395 со 128гб unified памяти (Beelink GTR9 Pro или Framework Desktop, на авито возят за 170-190к).
2. Две б/у 3090 по 55-60к + платформа на б/у эпике или обычный десктоп с двумя слотами, итого тоже под 200.
Смущает что у Strix Halo пропускная памяти всего ~256 гб/с против ~936 на каждой 3090. Но 48гб vram это потолок для 70B в Q4, а на 128гб влезает gpt-oss-120b и даже Qwen3-235B в Q2-Q3.
Кто реально живет с тем или другим, поделитесь циферками токенов в секунду. Особенно интересен prompt processing на длинном контексте, я в основном код гоняю через агентов.
Варианта два:
1. Миник на Ryzen AI Max+ 395 со 128гб unified памяти (Beelink GTR9 Pro или Framework Desktop, на авито возят за 170-190к).
2. Две б/у 3090 по 55-60к + платформа на б/у эпике или обычный десктоп с двумя слотами, итого тоже под 200.
Смущает что у Strix Halo пропускная памяти всего ~256 гб/с против ~936 на каждой 3090. Но 48гб vram это потолок для 70B в Q4, а на 128гб влезает gpt-oss-120b и даже Qwen3-235B в Q2-Q3.
Кто реально живет с тем или другим, поделитесь циферками токенов в секунду. Особенно интересен prompt processing на длинном контексте, я в основном код гоняю через агентов.
✔ Лучший ответ сформирован автоматически — KubeSmith
У меня как раз GTR9 на 395м с февраля, до этого была пара 3090. Расклад такой. Что реально получаю на llama.cpp (Vulkan, свежие сборки): - gpt-oss-120b (mxfp4): 33-35 t/s генерация, prompt processing в районе 350-400 t/s - Qwen3-30B-A3B: за 60 t/s, тут вообще летает - GLM-4.5-Air Q4: ~22 t/s - плотный 70B Q4: 4.5-5 t/s, вот это уже больно Эпоха сейчас MoE-шная, плотные 70B почти никто не выпускае…
Re: Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?
✔ Лучший ответ — сформирован автоматически
У меня как раз GTR9 на 395м с февраля, до этого была пара 3090. Расклад такой.
Что реально получаю на llama.cpp (Vulkan, свежие сборки):
- gpt-oss-120b (mxfp4): 33-35 t/s генерация, prompt processing в районе 350-400 t/s
- Qwen3-30B-A3B: за 60 t/s, тут вообще летает
- GLM-4.5-Air Q4: ~22 t/s
- плотный 70B Q4: 4.5-5 t/s, вот это уже больно
Эпоха сейчас MoE-шная, плотные 70B почти никто не выпускает, активных параметров у новых моделей 3-22B, и низкая ПСП во многом компенсируется. На паре 3090 я gpt-oss-120b целиком в vram не запихивал, с оффлоадом на проц было хуже чем сейчас на минике.
Но prompt processing это правда слабое место. 30к контекста на 120b пережевывает где-то минуту с лишним. Если у тебя агентный кодинг с постоянным перечитыванием репы, будет бесить. Зато ест 130 ватт против 700+ у пары 3090, с нынешними тарифами на свет тоже аргумент.
Что реально получаю на llama.cpp (Vulkan, свежие сборки):
- gpt-oss-120b (mxfp4): 33-35 t/s генерация, prompt processing в районе 350-400 t/s
- Qwen3-30B-A3B: за 60 t/s, тут вообще летает
- GLM-4.5-Air Q4: ~22 t/s
- плотный 70B Q4: 4.5-5 t/s, вот это уже больно
Эпоха сейчас MoE-шная, плотные 70B почти никто не выпускает, активных параметров у новых моделей 3-22B, и низкая ПСП во многом компенсируется. На паре 3090 я gpt-oss-120b целиком в vram не запихивал, с оффлоадом на проц было хуже чем сейчас на минике.
Но prompt processing это правда слабое место. 30к контекста на 120b пережевывает где-то минуту с лишним. Если у тебя агентный кодинг с постоянным перечитыванием репы, будет бесить. Зато ест 130 ватт против 700+ у пары 3090, с нынешними тарифами на свет тоже аргумент.
Re: Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?
вот это и есть приговор для ОПа. он же написал что гоняет код через агентов. агент за сессию раз двадцать перечитывает контекст, минута на каждый заход превращается в полчаса тупого ожидания. для чатика миник топ, для кодинга только карты с нормальным computeKubeSmith писал(а):30к контекста на 120b пережевывает где-то минуту с лишним
Re: Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?
уже не совсем так. llama.cpp на Vulkan вообще не требует ROCm и работает из коробки, lemonade server тоже. да, vllm на 395м это боль, не спорю. но для домашнего инференса llama.cpp закрывает 95% задач. другое дело что тренить лоры на этой штуке ты не будешь, тут зеленые вне конкуренцииkernel2 писал(а):под ROCm до сих пор половина стека через одно место собирается
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?
6 ответов · 21 просмотров
-
-
- Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?
4 ответов · 13 просмотров
-
- Хочу домашний NAS под фотки и бэкапы. Synology за 60к или самосбор из б/у?
7 ответов · 11 просмотров
-
- Оперативка подорожала в 2,5 раза за год — собирать ПК сейчас или ждать осени?
5 ответов · 11 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей