Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Рейтинг: 52.9% · 8 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
postgres2
Сообщения: 66
Зарегистрирован: 11 май 2026, 17:56

Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Сообщение postgres2 »

Думаю взять мини-пк на AMD Strix Halo с 128гб единой памяти под локальный инференс больших моделей, и не могу понять стоит оно того или это маркетинг. По бумагам можно грузить 70B и даже 100B+ в память, но пропускная способность памяти около 256 гб/с против 900+ у 3090. Кто реально щупал, какая скорость генерации на 70B и не превращается ли это в слайдшоу на длинном контексте? Цена вопроса под 200к, на эти деньги можно собрать на 2x3090.
👍1 ❤️2 🔥1 😄2 🤔
✔ Лучший ответ сформирован автоматически — Omoto
juniorredteam писал(а):год аренды нормального облака с H100 и слил все свои данные дяде, и платишь картой которую в полстраны не принимают, и в любой момент тебе отрубают доступ. Локальное железо берут не потому что дешевле за токен, а потому что оно твоё и работает без интернета и без вопросов. Это другой кейс.
Перейти к ответу →
Аватара пользователя
Roost66
Сообщения: 14
Зарегистрирован: 11 май 2026, 04:54

Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Сообщение Roost66 »

щупал. 70B в Q4 даёт примерно 5-6 т/с на генерации, на коротком контексте. Это читаемо но не быстро, для чата терпимо, для агента который гоняет туда-сюда мучительно. Промпт на 8к токенов он переваривает секунд 20-30, вот это реально больно.
👍2 ❤️ 🔥 😄 🤔
Аватара пользователя
derf03
Сообщения: 2
Зарегистрирован: 20 май 2026, 14:37

Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Сообщение derf03 »

Roost66 писал(а):70B в Q4 даёт примерно 5-6 т/с
это и есть ответ на вопрос ОПа. 5 т/с это медленнее чем человек читает вслух. За 200к получить слайдшоу на 70B такое себе. Лучше 2x3090 и крутить 30-32B быстро чем 70B еле-еле.
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
ceph7
Сообщения: 33
Зарегистрирован: 13 май 2026, 08:39

Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Сообщение ceph7 »

@postgres2, не сравнивай в лоб. 2x3090 это 48гб, ты на них 70B в нормальном кванте не запихнёшь с контекстом, только в Q3 и с урезанным кэшем. А Halo грузит 100B+ которые на двух 3090 вообще не влезут. Вопрос что тебе нужно: скорость на средних или возможность вообще запустить здоровую модель.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
svelte88
Сообщения: 63
Зарегистрирован: 12 май 2026, 11:49

Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Сообщение svelte88 »

MoE же. На Halo надо брать не плотные 70B а MoE типа Qwen3-235B-A22B в кванте или новые мелкоактивные. Там активных параметров мало, и пропускная способность памяти бьёт не так больно. На MoE Halo раскрывается, на плотных моделях да, грустно.
👍3 ❤️1 🔥 😄 🤔
Аватара пользователя
fpga_lord
Сообщения: 56
Зарегистрирован: 16 май 2026, 06:00

Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Сообщение fpga_lord »

+1 к MoE. У меня на похожем сетапе 235B-A22B в Q3 идёт около 12-14 т/с, потому что активных всего 22B. А плотную 70B та же железка тянет хуже. Так что ответ зависит от того что ты будешь крутить, плотное или MoE.
👍1 ❤️ 🔥1 😄 🤔1
Аватара пользователя
coder_anton
Сообщения: 32
Зарегистрирован: 11 май 2026, 16:50

Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Сообщение coder_anton »

энергопотребление ещё посмотри. Halo это 120вт под нагрузкой и тишина, 2x3090 это 700вт из розетки и вертолёт под столом. Если у тебя комната где спишь, это не пустяк.
👍2 ❤️1 🔥 😄 🤔1
Аватара пользователя
juniorredteam
Сообщения: 66
Зарегистрирован: 11 май 2026, 07:16

Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Сообщение juniorredteam »

200к за мини-пк который выдаёт 5 т/с на плотной модели. Народ вы серьёзно. За эти деньги год аренды нормального облака с H100 по запросу, накатал, посчитал, выключил.
👍1 ❤️1 🔥 😄1 🤔1
Аватара пользователя
Omoto
Сообщения: 120
Зарегистрирован: 12 май 2026, 03:05

Re: Стоит ли брать Strix Halo 128гб под локальные LLM или это развод на единой памяти

Сообщение Omoto »

✔ Лучший ответ — сформирован автоматически
juniorredteam писал(а):год аренды нормального облака с H100
и слил все свои данные дяде, и платишь картой которую в полстраны не принимают, и в любой момент тебе отрубают доступ. Локальное железо берут не потому что дешевле за токен, а потому что оно твоё и работает без интернета и без вопросов. Это другой кейс.
👍2 ❤️1 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость