Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

Рейтинг: 43.6% · 6 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
juniorstack
Сообщения: 62
Зарегистрирован: 12 май 2026, 12:04

Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

Сообщение juniorstack »

Взял Mac Studio M3 Ultra на 96гб памяти специально под локальные LLM, потому что начитался про единую память и что можно крупные модели запускать. По факту крупные веса грузятся да, 70B в Q4 влезает спокойно, но скорость генерации убивает весь кайф, 70B выдает около 8-9 токенов в секунду, читать можно но ждать долго. Делюсь чтобы не повторяли мою ошибку если гонитесь за скоростью.
👍2 ❤️1 🔥2 😄1 🤔1
✔ Лучший ответ сформирован автоматически — nginxlord
juniorstack писал(а):70B в Q4 влезает спокойно, но скорость генерации убивает весь кайфтак а зачем тебе 70B на локалке вообще. гоняй 32B в mlx формате, на твоем маке это будет 20+ t/s и качество вполне рабочее для большинства задач. мак не для того чтобы максимальную модель в него запихнуть, а чтобы среднюю гонять тихо и без отдельного компа с турбинами. ты просто юзкейс неправильно выбрал.
Перейти к ответу →
Аватара пользователя
peekatwo
Сообщения: 38
Зарегистрирован: 12 май 2026, 03:30

Re: Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

Сообщение peekatwo »

@juniorstack, ну а ты что ждал, у мака пропускная способность памяти хорошая но вычислений мало против нвидии. он берет тем что в него 70-100B влезает там где у тебя на пеке только 3090 с 24гб. это не про скорость, это про размер.
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
guardia
Сообщения: 49
Зарегистрирован: 11 май 2026, 14:59

Re: Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

Сообщение guardia »

@juniorstack, 8 t/s на 70B это вообще нормально для м3 ультра, у людей и меньше бывает. ты на промпт процессинг посмотри, вот там настоящая боль, на длинном контексте секунд 20-30 только промпт жует прежде чем начать отвечать.
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
nginxlord
Сообщения: 3
Зарегистрирован: 19 май 2026, 18:11

Re: Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

Сообщение nginxlord »

✔ Лучший ответ — сформирован автоматически
juniorstack писал(а):70B в Q4 влезает спокойно, но скорость генерации убивает весь кайф
так а зачем тебе 70B на локалке вообще. гоняй 32B в mlx формате, на твоем маке это будет 20+ t/s и качество вполне рабочее для большинства задач. мак не для того чтобы максимальную модель в него запихнуть, а чтобы среднюю гонять тихо и без отдельного компа с турбинами. ты просто юзкейс неправильно выбрал.
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
penalty
Сообщения: 37
Зарегистрирован: 16 май 2026, 21:13

Re: Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

Сообщение penalty »

за 96гб версию сколько отдал если не секрет? просто чтобы понимать порядок разочарования
👍 ❤️2 🔥 😄 🤔
Аватара пользователя
kfrosch
Сообщения: 4
Зарегистрирован: 14 май 2026, 14:53

Re: Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

Сообщение kfrosch »

@kotelnik где-то 380к вышло с растаможкой через серый импорт, в РФ официально их толком не купить сейчас. вот поэтому и обидно вдвойне за такие деньги.
👍1 ❤️1 🔥1 😄1 🤔
Аватара пользователя
archmaster
Сообщения: 44
Зарегистрирован: 15 май 2026, 01:57

Re: Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

Сообщение archmaster »

kfrosch писал(а):380к вышло с растаможкой
за эти деньги собрал бы пеку на 2x3090 б/у и имел бы и память и скорость. 48гб vram, 70B Q4 влезает, генерация 15+ t/s. шумит правда и греется, но за 380к можно еще и кондей в комнату поставить. мак конечно тихий и красивый, но как чисто инференс-машина оверпрайс.
👍 ❤️1 🔥1 😄2 🤔
Аватара пользователя
cohenst1
Сообщения: 92
Зарегистрирован: 11 май 2026, 02:08

Re: Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

Сообщение cohenst1 »

mlx реально другое дело, на нем у меня 32B заметно бодрее чем через ollama шла. так что совет выше дельный, llama.cpp/ollama на маке не раскрывают железо полностью, родной mlx быстрее процентов на 20-30.
👍 ❤️2 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя