Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли

Рейтинг: 48.7% · 7 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
lorenzinoarq
Сообщения: 65
Зарегистрирован: 11 май 2026, 00:03

Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли

Сообщение lorenzinoarq »

Дождался свой мини-ПК на Ryzen AI Max+ 395 (Strix Halo), 128 ГБ unified-памяти. Брал через посредника с Таобао, вышло 198 тысяч с доставкой и страховкой — на Озоне такие же коробки сейчас по 240+. Две недели гонял, выкладываю замеры, пока горячее.

Софт: Fedora 42, llama.cpp, собранный под Vulkan (ROCm 7.0 пробовал — на генерации чуть медленнее, на промпте чуть быстрее, в итоге остался на Vulkan). В UEFI выделил под GPU 96 ГБ, остальное добирается через GTT.

Цифры по генерации (Q4_K_M, если не указано иное):
Qwen3-30B-A3B — 52 т/с
GLM-4.5-Air 106B (A12B) — 23 т/с
Llama-3.3-70B (плотная) — 4.8 т/с
Qwen3-235B-A22B в IQ3_XXS — 11 т/с, влезает впритык с 16к контекста

Главная ложка дёгтя — обработка промпта. На GLM-Air получаю около 260 т/с на префилле, то есть закинуть 20к токенов кода — это больше минуты ожидания до первого токена. Для чата норм, для агентских сценариев с длинным контекстом — больно.

Вывод пока такой: эпоха MoE эту машинку реабилитировала. Плотные 70B можно даже не запускать, зато средние MoE летают. Спрашивайте, что ещё прогнать.
👍 ❤️ 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — pandas4
Прогнал. Qwen3-Coder-30B-A3B в Q8_0, скормил файл на 31к токенов: префилл 410 т/с (MoE с мелкими активными экспертами обрабатывается заметно бодрее плотных моделей), итого примерно 75 секунд до первого токена. Генерация на заполненном контексте просела с 49 до 38 т/с. Спасает -fa и кэш в q8_0, плюс держу --keep, чтобы системный промпт не пересчитывался при каждом запросе. Для автодополнения это в…
Перейти к ответу →
Аватара пользователя
heinrich48
Сообщения: 21
Зарегистрирован: 11 май 2026, 16:34

Re: Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли

Сообщение heinrich48 »

А смысл, если за те же деньги берутся две б/у 3090 по 65-70к? 48 ГБ VRAM, промпт молотит за тысячу с лишним т/с, exl3 опять же. Я на такой связке кручу Qwen3-32B в 6 битах с 60к контекста и не жужжу.
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
tommee
Сообщения: 64
Зарегистрирован: 11 май 2026, 02:37

Re: Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли

Сообщение tommee »

Две 3090 — это ещё материнка с двумя нормальными слотами, БП на киловатт, райзеры и обогреватель на 700 ватт под столом. У ТС коробка размером с книжку жрёт 130 ватт в пике и молчит. И главное — на 48 ГБ ты GLM-4.5-Air в приличном кванте не разместишь, а 235B даже близко. Разные ниши, чего сравнивать.
👍1 ❤️2 🔥 😄 🤔
Аватара пользователя
puto
Сообщения: 40
Зарегистрирован: 11 май 2026, 06:02

Re: Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли

Сообщение puto »

ТС, прогони, пожалуйста, Qwen3-Coder-30B-A3B с контекстом 32к — интересует именно скорость префилла на реальном куске кода и не деградирует ли генерация после 20к. Думаю взять такую же коробку под локального ассистента в Continue, но смущает как раз время до первого токена.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
pandas4
Сообщения: 36
Зарегистрирован: 15 май 2026, 08:41

Re: Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли

Сообщение pandas4 »

✔ Лучший ответ — сформирован автоматически
Прогнал. Qwen3-Coder-30B-A3B в Q8_0, скормил файл на 31к токенов: префилл 410 т/с (MoE с мелкими активными экспертами обрабатывается заметно бодрее плотных моделей), итого примерно 75 секунд до первого токена. Генерация на заполненном контексте просела с 49 до 38 т/с. Спасает -fa и кэш в q8_0, плюс держу --keep, чтобы системный промпт не пересчитывался при каждом запросе. Для автодополнения это всё равно медленно, а для режима «закинул таску — ушёл за чаем» вполне рабочая история.
👍1 ❤️1 🔥1 😄 🤔
Аватара пользователя
ceph7
Сообщения: 33
Зарегистрирован: 13 май 2026, 08:39

Re: Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли

Сообщение ceph7 »

Подожду, пока ребята с DGX Spark отпишутся, там память на бумаге шустрее... хотя по тестам, что я видел, та же печаль с префиллом. Похоже, до выхода Medusa Halo с её широкой шиной все эти коробки — компромисс. Но за 198к компромисс честный, особенно на фоне цен на 5090 под 300.
👍1 ❤️ 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость