Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?

Рейтинг: 34.2% · 2 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
grumpylurker
Сообщения: 63
Зарегистрирован: 15 май 2026, 01:41

Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?

Сообщение grumpylurker »

Назрел апгрейд. Сейчас сижу на одной 3060 12гб, гоняю мелочь типа Qwen3-8B, но хочется нормально крутить большие MoE дома. Бюджет примерно 200к.

Варианта два:
1. Миник на Ryzen AI Max+ 395 со 128гб unified памяти (Beelink GTR9 Pro или Framework Desktop, на авито возят за 170-190к).
2. Две б/у 3090 по 55-60к + платформа на б/у эпике или обычный десктоп с двумя слотами, итого тоже под 200.

Смущает что у Strix Halo пропускная памяти всего ~256 гб/с против ~936 на каждой 3090. Но 48гб vram это потолок для 70B в Q4, а на 128гб влезает gpt-oss-120b и даже Qwen3-235B в Q2-Q3.

Кто реально живет с тем или другим, поделитесь циферками токенов в секунду. Особенно интересен prompt processing на длинном контексте, я в основном код гоняю через агентов.
👍1 ❤️ 🔥1 😄1 🤔
✔ Лучший ответ сформирован автоматически — KubeSmith
У меня как раз GTR9 на 395м с февраля, до этого была пара 3090. Расклад такой. Что реально получаю на llama.cpp (Vulkan, свежие сборки): - gpt-oss-120b (mxfp4): 33-35 t/s генерация, prompt processing в районе 350-400 t/s - Qwen3-30B-A3B: за 60 t/s, тут вообще летает - GLM-4.5-Air Q4: ~22 t/s - плотный 70B Q4: 4.5-5 t/s, вот это уже больно Эпоха сейчас MoE-шная, плотные 70B почти никто не выпускае…
Перейти к ответу →
Аватара пользователя
kernel2
Сообщения: 30
Зарегистрирован: 20 май 2026, 10:58

Re: Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?

Сообщение kernel2 »

бери 3090 и не выдумывай. CUDA есть CUDA, под ROCm до сих пор половина стека через одно место собирается. exllamav3, vllm, tensorrt, на зеленых это все просто работает
👍1 ❤️1 🔥1 😄 🤔
Аватара пользователя
KubeSmith
Сообщения: 38
Зарегистрирован: 12 май 2026, 04:52

Re: Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?

Сообщение KubeSmith »

✔ Лучший ответ — сформирован автоматически
У меня как раз GTR9 на 395м с февраля, до этого была пара 3090. Расклад такой.

Что реально получаю на llama.cpp (Vulkan, свежие сборки):
- gpt-oss-120b (mxfp4): 33-35 t/s генерация, prompt processing в районе 350-400 t/s
- Qwen3-30B-A3B: за 60 t/s, тут вообще летает
- GLM-4.5-Air Q4: ~22 t/s
- плотный 70B Q4: 4.5-5 t/s, вот это уже больно

Эпоха сейчас MoE-шная, плотные 70B почти никто не выпускает, активных параметров у новых моделей 3-22B, и низкая ПСП во многом компенсируется. На паре 3090 я gpt-oss-120b целиком в vram не запихивал, с оффлоадом на проц было хуже чем сейчас на минике.

Но prompt processing это правда слабое место. 30к контекста на 120b пережевывает где-то минуту с лишним. Если у тебя агентный кодинг с постоянным перечитыванием репы, будет бесить. Зато ест 130 ватт против 700+ у пары 3090, с нынешними тарифами на свет тоже аргумент.
👍2 ❤️ 🔥 😄 🤔1
Аватара пользователя
envoy69
Сообщения: 20
Зарегистрирован: 12 май 2026, 19:29

Re: Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?

Сообщение envoy69 »

KubeSmith писал(а):30к контекста на 120b пережевывает где-то минуту с лишним
вот это и есть приговор для ОПа. он же написал что гоняет код через агентов. агент за сессию раз двадцать перечитывает контекст, минута на каждый заход превращается в полчаса тупого ожидания. для чатика миник топ, для кодинга только карты с нормальным compute
👍 ❤️1 🔥2 😄1 🤔
Аватара пользователя
dougo1
Сообщения: 5
Зарегистрирован: 11 май 2026, 17:00

Re: Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?

Сообщение dougo1 »

две 3090 зимой кстати неплохо заменяют обогреватель, проверено. летом правда квартира превращается в сауну, андервольт до 280вт обязателен, теряешь процентов 5 скорости и не плавишься
👍 ❤️1 🔥 😄 🤔1
Аватара пользователя
async2025
Сообщения: 44
Зарегистрирован: 13 май 2026, 02:57

Re: Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?

Сообщение async2025 »

kernel2 писал(а):под ROCm до сих пор половина стека через одно место собирается
уже не совсем так. llama.cpp на Vulkan вообще не требует ROCm и работает из коробки, lemonade server тоже. да, vllm на 395м это боль, не спорю. но для домашнего инференса llama.cpp закрывает 95% задач. другое дело что тренить лоры на этой штуке ты не будешь, тут зеленые вне конкуренции
👍 ❤️ 🔥 😄 🤔1
Аватара пользователя
zfspro
Сообщения: 17
Зарегистрирован: 29 май 2026, 02:58

Re: Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?

Сообщение zfspro »

спасибо, картина ясна. под агентов похоже все-таки 3090, а через годик посмотрю на Medusa Halo, обещают ПСП почти вдвое выше. если не наврут как обычно
👍1 ❤️ 🔥 😄 🤔2
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей