Взял две Mi50 по 32 гига с али под локалки, неделя с ROCm и я почти сдался

Рейтинг: 64.6% · 7 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
fletchl
Сообщения: 10
Зарегистрирован: 13 май 2026, 04:44

Взял две Mi50 по 32 гига с али под локалки, неделя с ROCm и я почти сдался

Сообщение fletchl »

Короче история. Увидел на али Mi50 32GB по 16 тыщ за штуку, продавец из Шэньчжэня, отзывы норм. Подумал, 64 гига VRAM за 32к это чит, взял две. Дальше началось.

Карты серверные, пассивные, в обычном корпусе им жить нечем. Напечатал кожухи, прикрутил улитки от делловского сервака, на полных оборотах звук как у пылесоса. Ладно, переживаемо.

ROCm. В 6.x поддержку gfx906 официально выпилили, на свежей убунте драйвер просто не видит карты как compute девайсы. Откатился на 22.04 + ROCm 5.7.3, llama.cpp с hipBLAS собрался раза с третьего, до этого падал на линковке. Неделя вечеров ушла.

Зато сейчас: Qwen3 32B в Q8 влезает целиком на две карты, 18-19 t/s генерация. 70B в Q4_K_M тоже лезет, около 9 t/s.

Вопрос к тем кто на этих картах сидит: пробовал кто Vulkan бэкенд вместо ROCm? Читал что на gfx906 вулкан уже догнал по скорости, а собирается без этого цирка с версиями.
👍1 ❤️2 🔥1 😄 🤔1
✔ Лучший ответ сформирован автоматически — allenw
Shonroman писал(а):через год llama.cpp дропнет gfx906 вслед за амд и у тебя 64 гига мертвого кремния С чего бы. Вулкан бэкенд от воли амд не зависит вообще, это обычный compute API, mesa драйвер для веги пилится сообществом и никуда не денется. P40 нвидиа из cuda давно выкинула, а народ до сих пор на них сидит и ничего. Сценарий с тыквой возможен только если сам llama.cpp умрет, но тогда у всех п…
Перейти к ответу →
Аватара пользователя
tx3300
Сообщения: 29
Зарегистрирован: 13 май 2026, 07:30

Re: Взял две Mi50 по 32 гига с али под локалки, неделя с ROCm и я почти сдался

Сообщение tx3300 »

Vulkan догнал и местами перегнал. У меня одна Mi50, на свежем llama.cpp вулкан дает на генерации процентов на 10 больше чем старый билд с rocm 5.7, и ставится на любом дистре без танцев. Минус: prompt processing на вулкане заметно слабее, если гоняешь длинные промпты, почувствуешь. Я для чата сижу на вулкане и не парюсь.
👍 ❤️2 🔥1 😄 🤔1
Аватара пользователя
Shonroman
Сообщения: 7
Зарегистрирован: 19 май 2026, 07:42

Re: Взял две Mi50 по 32 гига с али под локалки, неделя с ROCm и я почти сдался

Сообщение Shonroman »

@tx3300, 32к за карты, плюс бп нормальный, плюс охлад, плюс неделя вечеров которые тоже чего-то стоят. На авито 3090 за 55-60 и ноль страданий. А главное через год llama.cpp дропнет gfx906 вслед за амд и у тебя 64 гига мертвого кремния. Покупка ради покупки.
👍2 ❤️ 🔥1 😄1 🤔
Аватара пользователя
allenw
Сообщения: 7
Зарегистрирован: 14 май 2026, 16:15

Re: Взял две Mi50 по 32 гига с али под локалки, неделя с ROCm и я почти сдался

Сообщение allenw »

✔ Лучший ответ — сформирован автоматически
Shonroman писал(а):через год llama.cpp дропнет gfx906 вслед за амд и у тебя 64 гига мертвого кремния
С чего бы. Вулкан бэкенд от воли амд не зависит вообще, это обычный compute API, mesa драйвер для веги пилится сообществом и никуда не денется. P40 нвидиа из cuda давно выкинула, а народ до сих пор на них сидит и ничего. Сценарий с тыквой возможен только если сам llama.cpp умрет, но тогда у всех проблемы.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
ansible777
Сообщения: 46
Зарегистрирован: 11 май 2026, 10:14

Re: Взял две Mi50 по 32 гига с али под локалки, неделя с ROCm и я почти сдался

Сообщение ansible777 »

улитки от делла это жесть, у меня от такой соседи через стенку стучали. поменял на две арктики p12 с самопальным переходником, температура чуть хуже, зато 30 дб вместо 70. на озоне переходники под mi50 кстати уже готовые продают, рублей по 800
👍1 ❤️ 🔥 😄1 🤔1
Аватара пользователя
fpga_lord
Сообщения: 56
Зарегистрирован: 16 май 2026, 06:00

Re: Взял две Mi50 по 32 гига с али под локалки, неделя с ROCm и я почти сдался

Сообщение fpga_lord »

По скорости: 18-19 t/s на Q8 это вы что-то недожали. Попробуй -sm row вместо дефолтного layer split, на двух картах мне дало процентов 15-20 сверху. И kv кэш в q8_0 переведи, на 32к контекста пара гигов освободится.
👍 ❤️1 🔥2 😄 🤔
Аватара пользователя
hunter22
Сообщения: 50
Зарегистрирован: 11 май 2026, 00:25

Re: Взял две Mi50 по 32 гига с али под локалки, неделя с ROCm и я почти сдался

Сообщение hunter22 »

fletchl писал(а):Подумал, 64 гига VRAM за 32к это чит, взял две
чит с примечанием мелким шрифтом. брал такую же в январе, пришла с артефактами, memtest_vulkan показал битые чипы. продавец пропал, спор на али закрыли в его пользу, фотки им видите ли не такие. так что к 32к мысленно прибавляй лотерейный билет. рад что у тебя обе живые, но людям советовать поостерегся бы
👍1 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость