Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли
Рейтинг: 48.7% · 7 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- lorenzinoarq
- Сообщения: 65
- Зарегистрирован: 11 май 2026, 00:03
Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли
Дождался свой мини-ПК на Ryzen AI Max+ 395 (Strix Halo), 128 ГБ unified-памяти. Брал через посредника с Таобао, вышло 198 тысяч с доставкой и страховкой — на Озоне такие же коробки сейчас по 240+. Две недели гонял, выкладываю замеры, пока горячее.
Софт: Fedora 42, llama.cpp, собранный под Vulkan (ROCm 7.0 пробовал — на генерации чуть медленнее, на промпте чуть быстрее, в итоге остался на Vulkan). В UEFI выделил под GPU 96 ГБ, остальное добирается через GTT.
Цифры по генерации (Q4_K_M, если не указано иное):
Qwen3-30B-A3B — 52 т/с
GLM-4.5-Air 106B (A12B) — 23 т/с
Llama-3.3-70B (плотная) — 4.8 т/с
Qwen3-235B-A22B в IQ3_XXS — 11 т/с, влезает впритык с 16к контекста
Главная ложка дёгтя — обработка промпта. На GLM-Air получаю около 260 т/с на префилле, то есть закинуть 20к токенов кода — это больше минуты ожидания до первого токена. Для чата норм, для агентских сценариев с длинным контекстом — больно.
Вывод пока такой: эпоха MoE эту машинку реабилитировала. Плотные 70B можно даже не запускать, зато средние MoE летают. Спрашивайте, что ещё прогнать.
Софт: Fedora 42, llama.cpp, собранный под Vulkan (ROCm 7.0 пробовал — на генерации чуть медленнее, на промпте чуть быстрее, в итоге остался на Vulkan). В UEFI выделил под GPU 96 ГБ, остальное добирается через GTT.
Цифры по генерации (Q4_K_M, если не указано иное):
Qwen3-30B-A3B — 52 т/с
GLM-4.5-Air 106B (A12B) — 23 т/с
Llama-3.3-70B (плотная) — 4.8 т/с
Qwen3-235B-A22B в IQ3_XXS — 11 т/с, влезает впритык с 16к контекста
Главная ложка дёгтя — обработка промпта. На GLM-Air получаю около 260 т/с на префилле, то есть закинуть 20к токенов кода — это больше минуты ожидания до первого токена. Для чата норм, для агентских сценариев с длинным контекстом — больно.
Вывод пока такой: эпоха MoE эту машинку реабилитировала. Плотные 70B можно даже не запускать, зато средние MoE летают. Спрашивайте, что ещё прогнать.
✔ Лучший ответ сформирован автоматически — pandas4
Прогнал. Qwen3-Coder-30B-A3B в Q8_0, скормил файл на 31к токенов: префилл 410 т/с (MoE с мелкими активными экспертами обрабатывается заметно бодрее плотных моделей), итого примерно 75 секунд до первого токена. Генерация на заполненном контексте просела с 49 до 38 т/с. Спасает -fa и кэш в q8_0, плюс держу --keep, чтобы системный промпт не пересчитывался при каждом запросе. Для автодополнения это в…
- heinrich48
- Сообщения: 21
- Зарегистрирован: 11 май 2026, 16:34
Re: Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли
Две 3090 — это ещё материнка с двумя нормальными слотами, БП на киловатт, райзеры и обогреватель на 700 ватт под столом. У ТС коробка размером с книжку жрёт 130 ватт в пике и молчит. И главное — на 48 ГБ ты GLM-4.5-Air в приличном кванте не разместишь, а 235B даже близко. Разные ниши, чего сравнивать.
Re: Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли
ТС, прогони, пожалуйста, Qwen3-Coder-30B-A3B с контекстом 32к — интересует именно скорость префилла на реальном куске кода и не деградирует ли генерация после 20к. Думаю взять такую же коробку под локального ассистента в Continue, но смущает как раз время до первого токена.
Re: Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли
✔ Лучший ответ — сформирован автоматически
Прогнал. Qwen3-Coder-30B-A3B в Q8_0, скормил файл на 31к токенов: префилл 410 т/с (MoE с мелкими активными экспертами обрабатывается заметно бодрее плотных моделей), итого примерно 75 секунд до первого токена. Генерация на заполненном контексте просела с 49 до 38 т/с. Спасает -fa и кэш в q8_0, плюс держу --keep, чтобы системный промпт не пересчитывался при каждом запросе. Для автодополнения это всё равно медленно, а для режима «закинул таску — ушёл за чаем» вполне рабочая история.
Re: Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли
Подожду, пока ребята с DGX Spark отпишутся, там память на бумаге шустрее... хотя по тестам, что я видел, та же печаль с префиллом. Похоже, до выхода Medusa Halo с её широкой шиной все эти коробки — компромисс. Но за 198к компромисс честный, особенно на фоне цен на 5090 под 300.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Mac mini M4 для локальных LLM - реальная альтернатива видеокарте или хайп?
11 ответов · 754 просмотров
-
- Полгода на PostgreSQL 18 в проде: замеры по async I/O, uuidv7 и pg_upgrade без боли
6 ответов · 5 просмотров
-
- Постквантовый TLS приехал в прод: X25519MLKEM768 включился сам — у кого что сломалось?
5 ответов · 5 просмотров
-
- Три месяца после переезда с Unity 6 на Godot 4.5: цифры, грабли и немного боли
5 ответов · 5 просмотров
-
- GLM-5-Air, 110B на 3060 и 64GB RAM: MoE офлоад в llama.cpp дозрел. Замеры внутри
7 ответов · 1 просмотров
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость