Две MI50 по 32 ГБ с Али вместо одной 3090 — месяц опыта, цифры и боль с охлаждением

Рейтинг: 51% · 4 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
gdgdgd
Сообщения: 77
Зарегистрирован: 11 май 2026, 03:27

Две MI50 по 32 ГБ с Али вместо одной 3090 — месяц опыта, цифры и боль с охлаждением

Сообщение gdgdgd »

За месяц собрал инференс-сервер на двух AMD Instinct MI50 32 ГБ — брал на Алиэкспрессе по 19 тысяч за штуку, ехали почти три недели. Воткнул в старую плату на X99 с Xeon E5-2690v4 и 128 ГБ DDR4, итого 64 ГБ HBM2 за цену меньше половины б/у 3090. Главный сюрприз: ROCm для gfx906 официально похоронен, карта давно в списке deprecated, поэтому поднял всё на Vulkan-бэкенде llama.cpp — заводится из коробки на свежей Mesa. Цифры: Qwen3-32B Q4_K_M на одной карте — 17-18 т/с генерации, gpt-oss-120b в родном MXFP4 на двух — около 21 т/с, GLM-4.5-Air Q4 на двух — 19 т/с. HBM2 со своим почти терабайтом в секунду на генерации за эти деньги творит чудеса. Но prompt processing печальный: 130-150 т/с, то есть контекст на 16k токенов жуётся почти две минуты. Вторая боль — охлаждение: карты серверные, пассивные, я приколхозил улитку через самодельный переходник, под нагрузкой 78-83 градуса и воет как пылесос. Кто живёт с MI50 дольше: есть смысл откапывать старый ROCm в докере ради скорости промпта, или Vulkan уже догнал? И чем вы их охлаждаете в обычном корпусе, а не в стойке?
👍2 ❤️1 🔥 😄 🤔1
✔ Лучший ответ сформирован автоматически — Sjobs
Живу на четырёх MI50 с прошлой осени, отвечу по делу. Во-первых, старый ROCm 5.7 в докер-контейнере до сих пор работает и даёт примерно вдвое быстрее prompt processing, чем Vulkan, — у меня на Qwen3-32B выходит около 280 т/с против 140. Генерация при этом плюс-минус та же, так что если у тебя длинные промпты — ставь, образы живы. Во-вторых, на Vulkan не забудь флаг -fa, флэш-аттеншн там наконец з…
Перейти к ответу →
Аватара пользователя
pyninja
Сообщения: 16
Зарегистрирован: 20 май 2026, 13:20

Re: Две MI50 по 32 ГБ с Али вместо одной 3090 — месяц опыта, цифры и боль с охлаждением

Сообщение pyninja »

Я бы десять раз подумал, прежде чем советовать такое кому-то ещё. Ты купил лотерею: это выработавшие своё датацентровые карты без какой-либо гарантии. У меня из двух одна начала сыпать ошибками памяти через два месяца, продавец на Али после спора вернул половину и до свидания. Плюс pp в 150 т/с — это приговор для любых агентных сценариев и RAG: агент за сессию перечитывает контекст десятки раз, ты будешь ждать минуты там, где 3090 справляется за секунды. Б/у 3090 на Авито сейчас 60-65 тысяч — да, дороже твоей пары, но там pp за тысячу т/с, нормальные тензорные ядра, exllama, и через год её можно продать за те же деньги. MI50 через год не купит никто.
👍2 ❤️ 🔥1 😄 🤔
Аватара пользователя
Sjobs
Сообщения: 27
Зарегистрирован: 15 май 2026, 07:40

Re: Две MI50 по 32 ГБ с Али вместо одной 3090 — месяц опыта, цифры и боль с охлаждением

Сообщение Sjobs »

✔ Лучший ответ — сформирован автоматически
Живу на четырёх MI50 с прошлой осени, отвечу по делу. Во-первых, старый ROCm 5.7 в докер-контейнере до сих пор работает и даёт примерно вдвое быстрее prompt processing, чем Vulkan, — у меня на Qwen3-32B выходит около 280 т/с против 140. Генерация при этом плюс-минус та же, так что если у тебя длинные промпты — ставь, образы живы. Во-вторых, на Vulkan не забудь флаг -fa, флэш-аттеншн там наконец завезли, и квантуй KV-кэш в q8_0 — на 16k контекста экономит пару гигабайт без видимой потери. В-третьих, --split-mode row на двух картах добавляет мне процентов 15 к генерации против дефолтного layer. По питанию: rocm-smi позволяет срезать лимит до 150 Вт, теряешь процентов пять скорости, зато минус 15 градусов и минус вой. По охлаждению — не мучайся с улитками: на Авито продают напечатанные кожухи под два вентилятора 40 мм серверных, мне обошлось в 3 тысячи за всё, под нагрузкой 62-65 градусов. И главное — сиди на MoE-диете: gpt-oss-120b, GLM-4.5-Air, Qwen3-30B-A3B. Плотные 70B на этой памяти технически влезают, но 8 т/с — удовольствие на любителя.
👍 ❤️1 🔥1 😄1 🤔
Аватара пользователя
rdnckavn
Сообщения: 23
Зарегистрирован: 13 май 2026, 21:19

Re: Две MI50 по 32 ГБ с Али вместо одной 3090 — месяц опыта, цифры и боль с охлаждением

Сообщение rdnckavn »

Добавлю экономику, которую все почему-то пропускают. Две MI50 в простое жрут по 20-25 Вт каждая, сервер на X99 сам по себе ватт 60 — итого под 110 Вт круглосуточно, при 6 рублях за кВт·ч это около 480 рублей в месяц просто за то, что коробка стоит включённая. За год набегает треть стоимости карт. И второй вопрос — а что ты реально гоняешь, что требует 64 ГБ? Если основной сценарий — чат и мелкие задачи, Qwen3-30B-A3B летает даже на 5060 Ti 16 ГБ, которая стоит 50 тысяч новая с гарантией и не воет. Я бы ещё посмотрел в сторону Intel Arc Pro B60 с 24 ГБ — в рознице у нас обещают к концу лета, если цена будет вменяемая, весь этот рынок некро-карт сильно сдуется.
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
pkdunn8
Сообщения: 18
Зарегистрирован: 12 май 2026, 19:25

Re: Две MI50 по 32 ГБ с Али вместо одной 3090 — месяц опыта, цифры и боль с охлаждением

Сообщение pkdunn8 »

Мои две доехали за 16 дней через посредника в Казахстане, одна с погнутой планкой — выправил пассатижами, работает. Совет из опыта: сразу после получения гоняйте memtest_vulkan часа два-три и смотрите на троттлинг под длительной нагрузкой, у части карт высохшая термопаста и они сбрасывают частоты через десять минут. Спор на Али после двух недель — отдельный квест, проверяйте сразу.
👍 ❤️1 🔥1 😄 🤔1
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей