Две MI50 по 32 ГБ с Али вместо одной 3090 — месяц опыта, цифры и боль с охлаждением

gdgdgd · Сообщение **gdgdgd** » 09 июн 2026, 16:36

За месяц собрал инференс-сервер на двух AMD Instinct MI50 32 ГБ — брал на Алиэкспрессе по 19 тысяч за штуку, ехали почти три недели. Воткнул в старую плату на X99 с Xeon E5-2690v4 и 128 ГБ DDR4, итого 64 ГБ HBM2 за цену меньше половины б/у 3090. Главный сюрприз: ROCm для gfx906 официально похоронен, карта давно в списке deprecated, поэтому поднял всё на Vulkan-бэкенде llama.cpp — заводится из коробки на свежей Mesa. Цифры: Qwen3-32B Q4_K_M на одной карте — 17-18 т/с генерации, gpt-oss-120b в родном MXFP4 на двух — около 21 т/с, GLM-4.5-Air Q4 на двух — 19 т/с. HBM2 со своим почти терабайтом в секунду на генерации за эти деньги творит чудеса. Но prompt processing печальный: 130-150 т/с, то есть контекст на 16k токенов жуётся почти две минуты. Вторая боль — охлаждение: карты серверные, пассивные, я приколхозил улитку через самодельный переходник, под нагрузкой 78-83 градуса и воет как пылесос. Кто живёт с MI50 дольше: есть смысл откапывать старый ROCm в докере ради скорости промпта, или Vulkan уже догнал? И чем вы их охлаждаете в обычном корпусе, а не в стойке?

pyninja · Сообщение **pyninja** » 09 июн 2026, 18:59

Я бы десять раз подумал, прежде чем советовать такое кому-то ещё. Ты купил лотерею: это выработавшие своё датацентровые карты без какой-либо гарантии. У меня из двух одна начала сыпать ошибками памяти через два месяца, продавец на Али после спора вернул половину и до свидания. Плюс pp в 150 т/с — это приговор для любых агентных сценариев и RAG: агент за сессию перечитывает контекст десятки раз, ты будешь ждать минуты там, где 3090 справляется за секунды. Б/у 3090 на Авито сейчас 60-65 тысяч — да, дороже твоей пары, но там pp за тысячу т/с, нормальные тензорные ядра, exllama, и через год её можно продать за те же деньги. MI50 через год не купит никто.

Sjobs · Сообщение **Sjobs** » 09 июн 2026, 19:24

Живу на четырёх MI50 с прошлой осени, отвечу по делу. Во-первых, старый ROCm 5.7 в докер-контейнере до сих пор работает и даёт примерно вдвое быстрее prompt processing, чем Vulkan, — у меня на Qwen3-32B выходит около 280 т/с против 140. Генерация при этом плюс-минус та же, так что если у тебя длинные промпты — ставь, образы живы. Во-вторых, на Vulkan не забудь флаг -fa, флэш-аттеншн там наконец завезли, и квантуй KV-кэш в q8_0 — на 16k контекста экономит пару гигабайт без видимой потери. В-третьих, --split-mode row на двух картах добавляет мне процентов 15 к генерации против дефолтного layer. По питанию: rocm-smi позволяет срезать лимит до 150 Вт, теряешь процентов пять скорости, зато минус 15 градусов и минус вой. По охлаждению — не мучайся с улитками: на Авито продают напечатанные кожухи под два вентилятора 40 мм серверных, мне обошлось в 3 тысячи за всё, под нагрузкой 62-65 градусов. И главное — сиди на MoE-диете: gpt-oss-120b, GLM-4.5-Air, Qwen3-30B-A3B. Плотные 70B на этой памяти технически влезают, но 8 т/с — удовольствие на любителя.

rdnckavn · Сообщение **rdnckavn** » 09 июн 2026, 22:14

Добавлю экономику, которую все почему-то пропускают. Две MI50 в простое жрут по 20-25 Вт каждая, сервер на X99 сам по себе ватт 60 — итого под 110 Вт круглосуточно, при 6 рублях за кВт·ч это около 480 рублей в месяц просто за то, что коробка стоит включённая. За год набегает треть стоимости карт. И второй вопрос — а что ты реально гоняешь, что требует 64 ГБ? Если основной сценарий — чат и мелкие задачи, Qwen3-30B-A3B летает даже на 5060 Ti 16 ГБ, которая стоит 50 тысяч новая с гарантией и не воет. Я бы ещё посмотрел в сторону Intel Arc Pro B60 с 24 ГБ — в рознице у нас обещают к концу лета, если цена будет вменяемая, весь этот рынок некро-карт сильно сдуется.

pkdunn8 · Сообщение **pkdunn8** » 09 июн 2026, 22:29

Мои две доехали за 16 дней через посредника в Казахстане, одна с погнутой планкой — выправил пассатижами, работает. Совет из опыта: сразу после получения гоняйте memtest_vulkan часа два-три и смотрите на троттлинг под длительной нагрузкой, у части карт высохшая термопаста и они сбрасывают частоты через десять минут. Спор на Али после двух недель — отдельный квест, проверяйте сразу.

Две MI50 по 32 ГБ с Али вместо одной 3090 — месяц опыта, цифры и боль с охлаждением

Две MI50 по 32 ГБ с Али вместо одной 3090 — месяц опыта, цифры и боль с охлаждением

Re: Две MI50 по 32 ГБ с Али вместо одной 3090 — месяц опыта, цифры и боль с охлаждением

Re: Две MI50 по 32 ГБ с Али вместо одной 3090 — месяц опыта, цифры и боль с охлаждением

Re: Две MI50 по 32 ГБ с Али вместо одной 3090 — месяц опыта, цифры и боль с охлаждением

Re: Две MI50 по 32 ГБ с Али вместо одной 3090 — месяц опыта, цифры и боль с охлаждением

Кто сейчас на конференции