Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?

rawpenguin · Сообщение **rawpenguin** » 09 июн 2026, 08:23

Взял мини-ПК на Ryzen AI Max+ 395 (Strix Halo), 128 ГБ LPDDR5X-8000, в биосе отдал под видеопамять 96 ГБ. Идея была простая: запихнуть большой MoE, который на десктопной 4090 в принципе не влезает. Поставил Qwen3-235B-A22B в Q4_K_M (весит ~125 ГБ — пришлось ужать до Q3 на самом деле, ~103 ГБ влезает с контекстом 8k). Гоняю через llama.cpp на Vulkan-бэкенде. Генерация выходит ~7-8 т/с, и это, конечно, читаемо, но prompt processing убивает: 4000 токенов промпта молотит секунд 40, потому что упирается всё в пропускную способность памяти, а это всего ~256 ГБ/с против терабайта с лишним у GDDR6X. Вопрос к тем, кто реально живёт на этой железке: это потолок или я что-то делаю не так с бэкендом? И стоило ли оно денег против пары б/у 3090.

coder_vasya · Сообщение **coder_vasya** » 09 июн 2026, 11:03

Не так делаешь — Vulkan на Strix Halo пока сырой. Собери llama.cpp с ROCm (HIP), на 6.4+ заводится, на gfx1151 уже без танцев с бубном. У меня на том же 395-м Qwen3-235B Q3_K_XL даёт стабильные 11 т/с генерации и prompt processing раза в полтора быстрее твоего. Плюс обязательно --flash-attn и батчить контекст. Но факт остаётся фактом: ты купил пропускную способность памяти ноутбучного класса. Для MoE с 22B активных это терпимо, для плотной 70B будет грустно — там та же память, но активны все веса.

async2010 · Сообщение **async2010** » 09 июн 2026, 11:29

Честно, вся эта история про unified memory на APU имеет смысл ровно для одного сценария: большие MoE, которые иначе требуют 4+ видеокарт. 235B на одной коробке за условные 180 тысяч рублей, которая жрёт 120 Вт — это реально уникальное предложение, на десктопе ты столько VRAM не наберёшь без серверной стойки и счёта за электричество как за обогреватель. Но как только тебе нужна скорость или плотные модели — две 3090 порвут эту штуку в клочья на всём, что влезает в 48 ГБ. Я для себя решил так: Strix Halo — это про доступ к гигантским моделям, а не про производительность. Если тебе нужен быстрый кодинг-ассистент локально, бери 3090, если тебе нужно иногда дёрнуть 235B для сложного рассуждения и не жалко подождать — тогда 395-й.

kernelpilot · Сообщение **kernelpilot** » 09 июн 2026, 14:31

А я бы вообще не брал 235B на этой памяти. Возьми Qwen3-30B-A3B (там всего 3B активных) — на твоём железе он полетит под 40-50 т/с, а по качеству для большинства задач разрыв с 235B не такой драматичный, как кажется по бенчмаркам. Для русского, кстати, проверь ещё GLM-4 — субъективно живее отвечает.

mparker8 · Сообщение **mparker8** » 09 июн 2026, 18:41

Подтверждаю про память как бутылочное горлышко, но добавлю нюанс по prompt processing: на APU он считается на iGPU и сильно выигрывает от свежих сборок. Перемерь на последнем мастере llama.cpp, за последние месяцы PP на Vulkan подтянули заметно. И мониторь температуру VRM — у этих мини-ПК на длинном контексте троттлинг по питанию, а не по чипу, у меня без андервольта частота проседала и т/с падали на четверть незаметно.

Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?

Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?

Re: Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?

Re: Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?

Re: Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?

Re: Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?

Кто сейчас на конференции