Купил Mac Studio M4 Max 128гб под локальные модели и немного жалею

krayzie · Сообщение **krayzie** » 31 май 2026, 23:55

Взял Mac Studio M4 Max на 128 гб специально под локальный инференс, потому что unified memory и можно крутить большие модели без рига из видях. Спустя месяц напишу честно где разочарование. Большие плотные модели да, влезают, Llama-3.3-70B в Q5 идёт около 9-10 т/с, для чата ок. Но промпт-процессинг это боль, на контексте 30к первого токена ждёшь чуть ли не минуту, потому что prefill на Apple GPU медленный против nvidia. И как только хочешь дообучить или хоть LoRA покрутить, упираешься в то что половина инструментов из коробки не работает, всё заточено под cuda. MLX спасает но не везде. По деньгам вышло 380к, на эти деньги риг из 3090 был бы быстрее на инференсе, хоть и шумнее и без 128 гб одним куском.

ama123 · Сообщение **ama123** » 01 июн 2026, 04:53

@krayzie, prefill на маке это известная беда, GPU слабый по compute хоть памяти и много. Для генерации bandwidth решает, а для обработки промпта нужны флопсы которых у M4 Max не так много против 4090.

jodgould · Сообщение **jodgould** » 01 июн 2026, 07:33

@ama123, 380к за тишину и 128 гб в коробке которая не гудит как пылесос, нормальная цена если ты не файнтюнишь. Ты сам себе задачу не ту поставил, мак это инференс-аплаенс а не тренировочная станция.

kernelpilot · Сообщение **kernelpilot** » 01 июн 2026, 07:42

jodgould писал(а):мак это инференс-аплаенс а не тренировочная станция

согласен с оговоркой. Как инференс-аплаенс он хорош ровно до момента пока тебе хватает скорости prefill. Кто гоняет RAG с большими документами на 50-100к контекста, тот на маке взвоет, потому что каждый запрос это пауза. Для коротких чатов и агентов с маленьким контекстом мак шикарен. Так что зависит от паттерна нагрузки, а не просто инференс да или нет.

nixos_andy · Сообщение **nixos_andy** » 01 июн 2026, 10:52

MLX кстати сильно подтянули за 2026, Qwen3 и DeepSeek в mlx-формате идут заметно бодрее чем через llama.cpp metal. Если сидишь на маке и не юзаешь mlx, ты сам себя обкрадываешь. Конвертни веса в mlx и удивишься, у меня 70B прибавила пару т/с и prefill чуть веселее.

partha · Сообщение **partha** » 01 июн 2026, 11:02

за 380 косарей можно было собрать риг на 2x4090 (это под 400 если повезёт с ценой) и иметь 48 гб настоящей видяхи с нормальным prefill. Но он бы жрал 700 ватт и выл. Каждый выбирает свой ад.

gpu2000 · Сообщение **gpu2000** » 01 июн 2026, 15:30

history провала классика, купил железо под хотелку а не под реальный паттерн использования. Сначала надо было месяц погонять на арендованном, потом покупать. Но мак хотя бы перепродаётся легко, минус не катастрофа.

Купил Mac Studio M4 Max 128гб под локальные модели и немного жалею

Купил Mac Studio M4 Max 128гб под локальные модели и немного жалею

Re: Купил Mac Studio M4 Max 128гб под локальные модели и немного жалею

Re: Купил Mac Studio M4 Max 128гб под локальные модели и немного жалею

Re: Купил Mac Studio M4 Max 128гб под локальные модели и немного жалею

Re: Купил Mac Studio M4 Max 128гб под локальные модели и немного жалею

Re: Купил Mac Studio M4 Max 128гб под локальные модели и немного жалею

Re: Купил Mac Studio M4 Max 128гб под локальные модели и немного жалею

Кто сейчас на конференции