Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?

Рейтинг: 43.9% · 3 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
rawpenguin
Сообщения: 26
Зарегистрирован: 11 май 2026, 19:46

Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?

Сообщение rawpenguin »

Взял мини-ПК на Ryzen AI Max+ 395 (Strix Halo), 128 ГБ LPDDR5X-8000, в биосе отдал под видеопамять 96 ГБ. Идея была простая: запихнуть большой MoE, который на десктопной 4090 в принципе не влезает. Поставил Qwen3-235B-A22B в Q4_K_M (весит ~125 ГБ — пришлось ужать до Q3 на самом деле, ~103 ГБ влезает с контекстом 8k). Гоняю через llama.cpp на Vulkan-бэкенде. Генерация выходит ~7-8 т/с, и это, конечно, читаемо, но prompt processing убивает: 4000 токенов промпта молотит секунд 40, потому что упирается всё в пропускную способность памяти, а это всего ~256 ГБ/с против терабайта с лишним у GDDR6X. Вопрос к тем, кто реально живёт на этой железке: это потолок или я что-то делаю не так с бэкендом? И стоило ли оно денег против пары б/у 3090.
👍 ❤️ 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — async2010
Честно, вся эта история про unified memory на APU имеет смысл ровно для одного сценария: большие MoE, которые иначе требуют 4+ видеокарт. 235B на одной коробке за условные 180 тысяч рублей, которая жрёт 120 Вт — это реально уникальное предложение, на десктопе ты столько VRAM не наберёшь без серверной стойки и счёта за электричество как за обогреватель. Но как только тебе нужна скорость или плотны…
Перейти к ответу →
Аватара пользователя
coder_vasya
Сообщения: 73
Зарегистрирован: 12 май 2026, 05:35

Re: Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?

Сообщение coder_vasya »

Не так делаешь — Vulkan на Strix Halo пока сырой. Собери llama.cpp с ROCm (HIP), на 6.4+ заводится, на gfx1151 уже без танцев с бубном. У меня на том же 395-м Qwen3-235B Q3_K_XL даёт стабильные 11 т/с генерации и prompt processing раза в полтора быстрее твоего. Плюс обязательно --flash-attn и батчить контекст. Но факт остаётся фактом: ты купил пропускную способность памяти ноутбучного класса. Для MoE с 22B активных это терпимо, для плотной 70B будет грустно — там та же память, но активны все веса.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
async2010
Сообщения: 22
Зарегистрирован: 11 май 2026, 18:37

Re: Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?

Сообщение async2010 »

✔ Лучший ответ — сформирован автоматически
Честно, вся эта история про unified memory на APU имеет смысл ровно для одного сценария: большие MoE, которые иначе требуют 4+ видеокарт. 235B на одной коробке за условные 180 тысяч рублей, которая жрёт 120 Вт — это реально уникальное предложение, на десктопе ты столько VRAM не наберёшь без серверной стойки и счёта за электричество как за обогреватель. Но как только тебе нужна скорость или плотные модели — две 3090 порвут эту штуку в клочья на всём, что влезает в 48 ГБ. Я для себя решил так: Strix Halo — это про доступ к гигантским моделям, а не про производительность. Если тебе нужен быстрый кодинг-ассистент локально, бери 3090, если тебе нужно иногда дёрнуть 235B для сложного рассуждения и не жалко подождать — тогда 395-й.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
kernelpilot
Сообщения: 24
Зарегистрирован: 19 май 2026, 15:38

Re: Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?

Сообщение kernelpilot »

А я бы вообще не брал 235B на этой памяти. Возьми Qwen3-30B-A3B (там всего 3B активных) — на твоём железе он полетит под 40-50 т/с, а по качеству для большинства задач разрыв с 235B не такой драматичный, как кажется по бенчмаркам. Для русского, кстати, проверь ещё GLM-4 — субъективно живее отвечает.
👍 ❤️1 🔥1 😄 🤔1
Аватара пользователя
mparker8
Сообщения: 8
Зарегистрирован: 18 май 2026, 21:19

Re: Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?

Сообщение mparker8 »

Подтверждаю про память как бутылочное горлышко, но добавлю нюанс по prompt processing: на APU он считается на iGPU и сильно выигрывает от свежих сборок. Перемерь на последнем мастере llama.cpp, за последние месяцы PP на Vulkan подтянули заметно. И мониторь температуру VRM — у этих мини-ПК на длинном контексте троттлинг по питанию, а не по чипу, у меня без андервольта частота проседала и т/с падали на четверть незаметно.
👍 ❤️2 🔥 😄 🤔1
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей