Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли

lorenzinoarq

Дождался свой мини-ПК на Ryzen AI Max+ 395 (Strix Halo), 128 ГБ unified-памяти. Брал через посредника с Таобао, вышло 198 тысяч с доставкой и страховкой — на Озоне такие же коробки сейчас по 240+. Две недели гонял, выкладываю замеры, пока горячее.

Софт: Fedora 42, llama.cpp, собранный под Vulkan (ROCm 7.0 пробовал — на генерации чуть медленнее, на промпте чуть быстрее, в итоге остался на Vulkan). В UEFI выделил под GPU 96 ГБ, остальное добирается через GTT.

Цифры по генерации (Q4_K_M, если не указано иное):
Qwen3-30B-A3B — 52 т/с
GLM-4.5-Air 106B (A12B) — 23 т/с
Llama-3.3-70B (плотная) — 4.8 т/с
Qwen3-235B-A22B в IQ3_XXS — 11 т/с, влезает впритык с 16к контекста

Главная ложка дёгтя — обработка промпта. На GLM-Air получаю около 260 т/с на префилле, то есть закинуть 20к токенов кода — это больше минуты ожидания до первого токена. Для чата норм, для агентских сценариев с длинным контекстом — больно.

Вывод пока такой: эпоха MoE эту машинку реабилитировала. Плотные 70B можно даже не запускать, зато средние MoE летают. Спрашивайте, что ещё прогнать.

heinrich48 · Сообщение **heinrich48** » 09 июн 2026, 13:56

А смысл, если за те же деньги берутся две б/у 3090 по 65-70к? 48 ГБ VRAM, промпт молотит за тысячу с лишним т/с, exl3 опять же. Я на такой связке кручу Qwen3-32B в 6 битах с 60к контекста и не жужжу.

tommee · Сообщение **tommee** » 09 июн 2026, 14:06

Две 3090 — это ещё материнка с двумя нормальными слотами, БП на киловатт, райзеры и обогреватель на 700 ватт под столом. У ТС коробка размером с книжку жрёт 130 ватт в пике и молчит. И главное — на 48 ГБ ты GLM-4.5-Air в приличном кванте не разместишь, а 235B даже близко. Разные ниши, чего сравнивать.

puto · Сообщение **puto** » 09 июн 2026, 16:37

ТС, прогони, пожалуйста, Qwen3-Coder-30B-A3B с контекстом 32к — интересует именно скорость префилла на реальном куске кода и не деградирует ли генерация после 20к. Думаю взять такую же коробку под локального ассистента в Continue, но смущает как раз время до первого токена.

pandas4 · Сообщение **pandas4** » 09 июн 2026, 17:08

Прогнал. Qwen3-Coder-30B-A3B в Q8_0, скормил файл на 31к токенов: префилл 410 т/с (MoE с мелкими активными экспертами обрабатывается заметно бодрее плотных моделей), итого примерно 75 секунд до первого токена. Генерация на заполненном контексте просела с 49 до 38 т/с. Спасает -fa и кэш в q8_0, плюс держу --keep, чтобы системный промпт не пересчитывался при каждом запросе. Для автодополнения это всё равно медленно, а для режима «закинул таску — ушёл за чаем» вполне рабочая история.

ceph7 · Сообщение **ceph7** » 09 июн 2026, 21:58

Подожду, пока ребята с DGX Spark отпишутся, там память на бумаге шустрее... хотя по тестам, что я видел, та же печаль с префиллом. Похоже, до выхода Medusa Halo с её широкой шиной все эти коробки — компромисс. Но за 198к компромисс честный, особенно на фоне цен на 5090 под 300.

Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли

Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли

Re: Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли

Re: Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли

Re: Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли

Re: Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли

Re: Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли

Кто сейчас на конференции