Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

postgres2 · Сообщение **postgres2** » 22 май 2026, 18:37

Думаю взять мини-пк на AMD Strix Halo с 128гб единой памяти под локальный инференс больших моделей, и не могу понять стоит оно того или это маркетинг. По бумагам можно грузить 70B и даже 100B+ в память, но пропускная способность памяти около 256 гб/с против 900+ у 3090. Кто реально щупал, какая скорость генерации на 70B и не превращается ли это в слайдшоу на длинном контексте? Цена вопроса под 200к, на эти деньги можно собрать на 2x3090.

Roost66 · Сообщение **Roost66** » 22 май 2026, 22:23

щупал. 70B в Q4 даёт примерно 5-6 т/с на генерации, на коротком контексте. Это читаемо но не быстро, для чата терпимо, для агента который гоняет туда-сюда мучительно. Промпт на 8к токенов он переваривает секунд 20-30, вот это реально больно.

derf03 · Сообщение **derf03** » 23 май 2026, 03:11

Roost66 писал(а):70B в Q4 даёт примерно 5-6 т/с

это и есть ответ на вопрос ОПа. 5 т/с это медленнее чем человек читает вслух. За 200к получить слайдшоу на 70B такое себе. Лучше 2x3090 и крутить 30-32B быстро чем 70B еле-еле.

ceph7 · Сообщение **ceph7** » 23 май 2026, 05:08

@postgres2, не сравнивай в лоб. 2x3090 это 48гб, ты на них 70B в нормальном кванте не запихнёшь с контекстом, только в Q3 и с урезанным кэшем. А Halo грузит 100B+ которые на двух 3090 вообще не влезут. Вопрос что тебе нужно: скорость на средних или возможность вообще запустить здоровую модель.

svelte88 · Сообщение **svelte88** » 23 май 2026, 08:02

MoE же. На Halo надо брать не плотные 70B а MoE типа Qwen3-235B-A22B в кванте или новые мелкоактивные. Там активных параметров мало, и пропускная способность памяти бьёт не так больно. На MoE Halo раскрывается, на плотных моделях да, грустно.

fpga_lord · Сообщение **fpga_lord** » 23 май 2026, 10:34

+1 к MoE. У меня на похожем сетапе 235B-A22B в Q3 идёт около 12-14 т/с, потому что активных всего 22B. А плотную 70B та же железка тянет хуже. Так что ответ зависит от того что ты будешь крутить, плотное или MoE.

coder_anton · Сообщение **coder_anton** » 23 май 2026, 11:49

энергопотребление ещё посмотри. Halo это 120вт под нагрузкой и тишина, 2x3090 это 700вт из розетки и вертолёт под столом. Если у тебя комната где спишь, это не пустяк.

juniorredteam

200к за мини-пк который выдаёт 5 т/с на плотной модели. Народ вы серьёзно. За эти деньги год аренды нормального облака с H100 по запросу, накатал, посчитал, выключил.

Omoto · Сообщение **Omoto** » 23 май 2026, 16:12

juniorredteam писал(а):год аренды нормального облака с H100

и слил все свои данные дяде, и платишь картой которую в полстраны не принимают, и в любой момент тебе отрубают доступ. Локальное железо берут не потому что дешевле за токен, а потому что оно твоё и работает без интернета и без вопросов. Это другой кейс.

Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Кто сейчас на конференции