Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

juniorstack · Сообщение **juniorstack** » 26 май 2026, 21:06

Взял Mac Studio M3 Ultra на 96гб памяти специально под локальные LLM, потому что начитался про единую память и что можно крупные модели запускать. По факту крупные веса грузятся да, 70B в Q4 влезает спокойно, но скорость генерации убивает весь кайф, 70B выдает около 8-9 токенов в секунду, читать можно но ждать долго. Делюсь чтобы не повторяли мою ошибку если гонитесь за скоростью.

peekatwo · Сообщение **peekatwo** » 27 май 2026, 01:33

@juniorstack, ну а ты что ждал, у мака пропускная способность памяти хорошая но вычислений мало против нвидии. он берет тем что в него 70-100B влезает там где у тебя на пеке только 3090 с 24гб. это не про скорость, это про размер.

guardia · Сообщение **guardia** » 27 май 2026, 01:42

@juniorstack, 8 t/s на 70B это вообще нормально для м3 ультра, у людей и меньше бывает. ты на промпт процессинг посмотри, вот там настоящая боль, на длинном контексте секунд 20-30 только промпт жует прежде чем начать отвечать.

nginxlord · Сообщение **nginxlord** » 27 май 2026, 04:00

juniorstack писал(а):70B в Q4 влезает спокойно, но скорость генерации убивает весь кайф

так а зачем тебе 70B на локалке вообще. гоняй 32B в mlx формате, на твоем маке это будет 20+ t/s и качество вполне рабочее для большинства задач. мак не для того чтобы максимальную модель в него запихнуть, а чтобы среднюю гонять тихо и без отдельного компа с турбинами. ты просто юзкейс неправильно выбрал.

penalty · Сообщение **penalty** » 27 май 2026, 07:17

за 96гб версию сколько отдал если не секрет? просто чтобы понимать порядок разочарования

kfrosch · Сообщение **kfrosch** » 27 май 2026, 09:43

@kotelnik где-то 380к вышло с растаможкой через серый импорт, в РФ официально их толком не купить сейчас. вот поэтому и обидно вдвойне за такие деньги.

archmaster · Сообщение **archmaster** » 27 май 2026, 12:37

kfrosch писал(а):380к вышло с растаможкой

за эти деньги собрал бы пеку на 2x3090 б/у и имел бы и память и скорость. 48гб vram, 70B Q4 влезает, генерация 15+ t/s. шумит правда и греется, но за 380к можно еще и кондей в комнату поставить. мак конечно тихий и красивый, но как чисто инференс-машина оверпрайс.

cohenst1 · Сообщение **cohenst1** » 27 май 2026, 13:25

mlx реально другое дело, на нем у меня 32B заметно бодрее чем через ollama шла. так что совет выше дельный, llama.cpp/ollama на маке не раскрывают железо полностью, родной mlx быстрее процентов на 20-30.

Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

Re: Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

Re: Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

Re: Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

Re: Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

Re: Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

Re: Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

Re: Купил Mac Studio M3 Ultra 96гб под локальные модели и немного разочарован

Кто сейчас на конференции