Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?
Рейтинг: 43.9% · 3 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- rawpenguin
- Сообщения: 26
- Зарегистрирован: 11 май 2026, 19:46
Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?
Взял мини-ПК на Ryzen AI Max+ 395 (Strix Halo), 128 ГБ LPDDR5X-8000, в биосе отдал под видеопамять 96 ГБ. Идея была простая: запихнуть большой MoE, который на десктопной 4090 в принципе не влезает. Поставил Qwen3-235B-A22B в Q4_K_M (весит ~125 ГБ — пришлось ужать до Q3 на самом деле, ~103 ГБ влезает с контекстом 8k). Гоняю через llama.cpp на Vulkan-бэкенде. Генерация выходит ~7-8 т/с, и это, конечно, читаемо, но prompt processing убивает: 4000 токенов промпта молотит секунд 40, потому что упирается всё в пропускную способность памяти, а это всего ~256 ГБ/с против терабайта с лишним у GDDR6X. Вопрос к тем, кто реально живёт на этой железке: это потолок или я что-то делаю не так с бэкендом? И стоило ли оно денег против пары б/у 3090.
✔ Лучший ответ сформирован автоматически — async2010
Честно, вся эта история про unified memory на APU имеет смысл ровно для одного сценария: большие MoE, которые иначе требуют 4+ видеокарт. 235B на одной коробке за условные 180 тысяч рублей, которая жрёт 120 Вт — это реально уникальное предложение, на десктопе ты столько VRAM не наберёшь без серверной стойки и счёта за электричество как за обогреватель. Но как только тебе нужна скорость или плотны…
- coder_vasya
- Сообщения: 73
- Зарегистрирован: 12 май 2026, 05:35
Re: Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?
Не так делаешь — Vulkan на Strix Halo пока сырой. Собери llama.cpp с ROCm (HIP), на 6.4+ заводится, на gfx1151 уже без танцев с бубном. У меня на том же 395-м Qwen3-235B Q3_K_XL даёт стабильные 11 т/с генерации и prompt processing раза в полтора быстрее твоего. Плюс обязательно --flash-attn и батчить контекст. Но факт остаётся фактом: ты купил пропускную способность памяти ноутбучного класса. Для MoE с 22B активных это терпимо, для плотной 70B будет грустно — там та же память, но активны все веса.
Re: Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?
✔ Лучший ответ — сформирован автоматически
Честно, вся эта история про unified memory на APU имеет смысл ровно для одного сценария: большие MoE, которые иначе требуют 4+ видеокарт. 235B на одной коробке за условные 180 тысяч рублей, которая жрёт 120 Вт — это реально уникальное предложение, на десктопе ты столько VRAM не наберёшь без серверной стойки и счёта за электричество как за обогреватель. Но как только тебе нужна скорость или плотные модели — две 3090 порвут эту штуку в клочья на всём, что влезает в 48 ГБ. Я для себя решил так: Strix Halo — это про доступ к гигантским моделям, а не про производительность. Если тебе нужен быстрый кодинг-ассистент локально, бери 3090, если тебе нужно иногда дёрнуть 235B для сложного рассуждения и не жалко подождать — тогда 395-й.
- kernelpilot
- Сообщения: 24
- Зарегистрирован: 19 май 2026, 15:38
Re: Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?
А я бы вообще не брал 235B на этой памяти. Возьми Qwen3-30B-A3B (там всего 3B активных) — на твоём железе он полетит под 40-50 т/с, а по качеству для большинства задач разрыв с 235B не такой драматичный, как кажется по бенчмаркам. Для русского, кстати, проверь ещё GLM-4 — субъективно живее отвечает.
Re: Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?
Подтверждаю про память как бутылочное горлышко, но добавлю нюанс по prompt processing: на APU он считается на iGPU и сильно выигрывает от свежих сборок. Перемерь на последнем мастере llama.cpp, за последние месяцы PP на Vulkan подтянули заметно. И мониторь температуру VRM — у этих мини-ПК на длинном контексте троттлинг по питанию, а не по чипу, у меня без андервольта частота проседала и т/с падали на четверть незаметно.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
- Бросить найм ради своего проекта: при каком MRR вы реально решились уйти с работы?
10 ответов · 2040 просмотров
-
- С чего реально начать в пентесте в 2026? TryHackMe, HTB или сразу сертификаты?
12 ответов · 1917 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость