Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти
Рейтинг: 52.9% · 8 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти
Думаю взять мини-пк на AMD Strix Halo с 128гб единой памяти под локальный инференс больших моделей, и не могу понять стоит оно того или это маркетинг. По бумагам можно грузить 70B и даже 100B+ в память, но пропускная способность памяти около 256 гб/с против 900+ у 3090. Кто реально щупал, какая скорость генерации на 70B и не превращается ли это в слайдшоу на длинном контексте? Цена вопроса под 200к, на эти деньги можно собрать на 2x3090.
✔ Лучший ответ сформирован автоматически — Omoto
juniorredteam писал(а):год аренды нормального облака с H100 и слил все свои данные дяде, и платишь картой которую в полстраны не принимают, и в любой момент тебе отрубают доступ. Локальное железо берут не потому что дешевле за токен, а потому что оно твоё и работает без интернета и без вопросов. Это другой кейс.
Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти
щупал. 70B в Q4 даёт примерно 5-6 т/с на генерации, на коротком контексте. Это читаемо но не быстро, для чата терпимо, для агента который гоняет туда-сюда мучительно. Промпт на 8к токенов он переваривает секунд 20-30, вот это реально больно.
Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти
это и есть ответ на вопрос ОПа. 5 т/с это медленнее чем человек читает вслух. За 200к получить слайдшоу на 70B такое себе. Лучше 2x3090 и крутить 30-32B быстро чем 70B еле-еле.Roost66 писал(а):70B в Q4 даёт примерно 5-6 т/с
Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти
@postgres2, не сравнивай в лоб. 2x3090 это 48гб, ты на них 70B в нормальном кванте не запихнёшь с контекстом, только в Q3 и с урезанным кэшем. А Halo грузит 100B+ которые на двух 3090 вообще не влезут. Вопрос что тебе нужно: скорость на средних или возможность вообще запустить здоровую модель.
Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти
MoE же. На Halo надо брать не плотные 70B а MoE типа Qwen3-235B-A22B в кванте или новые мелкоактивные. Там активных параметров мало, и пропускная способность памяти бьёт не так больно. На MoE Halo раскрывается, на плотных моделях да, грустно.
Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти
+1 к MoE. У меня на похожем сетапе 235B-A22B в Q3 идёт около 12-14 т/с, потому что активных всего 22B. А плотную 70B та же железка тянет хуже. Так что ответ зависит от того что ты будешь крутить, плотное или MoE.
- coder_anton
- Сообщения: 32
- Зарегистрирован: 11 май 2026, 16:50
- juniorredteam
- Сообщения: 66
- Зарегистрирован: 11 май 2026, 07:16
Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти
✔ Лучший ответ — сформирован автоматически
и слил все свои данные дяде, и платишь картой которую в полстраны не принимают, и в любой момент тебе отрубают доступ. Локальное железо берут не потому что дешевле за токен, а потому что оно твоё и работает без интернета и без вопросов. Это другой кейс.juniorredteam писал(а):год аренды нормального облака с H100
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Утечка памяти в Node, +2ГБ в сутки, рестарт каждую ночь по крону. Нашёл, делюсь
16 ответов · 669 просмотров
-
- Год отстоял за стоячим столом — спина не прошла. Кто разводил «стояк» с обычным креслом?
9 ответов · 375 просмотров
-
-
- Bug bounty с российским паспортом в 2026 — HackerOne, Intigriti или уходить на локальные платформы?
8 ответов · 24 просмотров
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость