Купил Mac Studio M4 Max 128гб под локальные модели и немного жалею

Рейтинг: 52.9% · 8 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
krayzie
Сообщения: 28
Зарегистрирован: 12 май 2026, 14:46

Купил Mac Studio M4 Max 128гб под локальные модели и немного жалею

Сообщение krayzie »

Взял Mac Studio M4 Max на 128 гб специально под локальный инференс, потому что unified memory и можно крутить большие модели без рига из видях. Спустя месяц напишу честно где разочарование. Большие плотные модели да, влезают, Llama-3.3-70B в Q5 идёт около 9-10 т/с, для чата ок. Но промпт-процессинг это боль, на контексте 30к первого токена ждёшь чуть ли не минуту, потому что prefill на Apple GPU медленный против nvidia. И как только хочешь дообучить или хоть LoRA покрутить, упираешься в то что половина инструментов из коробки не работает, всё заточено под cuda. MLX спасает но не везде. По деньгам вышло 380к, на эти деньги риг из 3090 был бы быстрее на инференсе, хоть и шумнее и без 128 гб одним куском.
👍3 ❤️ 🔥1 😄1 🤔
✔ Лучший ответ сформирован автоматически — kernelpilot
jodgould писал(а):мак это инференс-аплаенс а не тренировочная станция согласен с оговоркой. Как инференс-аплаенс он хорош ровно до момента пока тебе хватает скорости prefill. Кто гоняет RAG с большими документами на 50-100к контекста, тот на маке взвоет, потому что каждый запрос это пауза. Для коротких чатов и агентов с маленьким контекстом мак шикарен. Так что зависит от паттерна нагрузки, а не …
Перейти к ответу →
Аватара пользователя
ama123
Сообщения: 19
Зарегистрирован: 11 май 2026, 09:03

Re: Купил Mac Studio M4 Max 128гб под локальные модели и немного жалею

Сообщение ama123 »

@krayzie, prefill на маке это известная беда, GPU слабый по compute хоть памяти и много. Для генерации bandwidth решает, а для обработки промпта нужны флопсы которых у M4 Max не так много против 4090.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
jodgould
Сообщения: 9
Зарегистрирован: 26 май 2026, 10:01

Re: Купил Mac Studio M4 Max 128гб под локальные модели и немного жалею

Сообщение jodgould »

@ama123, 380к за тишину и 128 гб в коробке которая не гудит как пылесос, нормальная цена если ты не файнтюнишь. Ты сам себе задачу не ту поставил, мак это инференс-аплаенс а не тренировочная станция.
👍1 ❤️1 🔥1 😄1 🤔
Аватара пользователя
kernelpilot
Сообщения: 24
Зарегистрирован: 19 май 2026, 15:38

Re: Купил Mac Studio M4 Max 128гб под локальные модели и немного жалею

Сообщение kernelpilot »

✔ Лучший ответ — сформирован автоматически
jodgould писал(а):мак это инференс-аплаенс а не тренировочная станция
согласен с оговоркой. Как инференс-аплаенс он хорош ровно до момента пока тебе хватает скорости prefill. Кто гоняет RAG с большими документами на 50-100к контекста, тот на маке взвоет, потому что каждый запрос это пауза. Для коротких чатов и агентов с маленьким контекстом мак шикарен. Так что зависит от паттерна нагрузки, а не просто инференс да или нет.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
nixos_andy
Сообщения: 61
Зарегистрирован: 11 май 2026, 03:44

Re: Купил Mac Studio M4 Max 128гб под локальные модели и немного жалею

Сообщение nixos_andy »

MLX кстати сильно подтянули за 2026, Qwen3 и DeepSeek в mlx-формате идут заметно бодрее чем через llama.cpp metal. Если сидишь на маке и не юзаешь mlx, ты сам себя обкрадываешь. Конвертни веса в mlx и удивишься, у меня 70B прибавила пару т/с и prefill чуть веселее.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
partha
Сообщения: 16
Зарегистрирован: 11 май 2026, 08:40

Re: Купил Mac Studio M4 Max 128гб под локальные модели и немного жалею

Сообщение partha »

за 380 косарей можно было собрать риг на 2x4090 (это под 400 если повезёт с ценой) и иметь 48 гб настоящей видяхи с нормальным prefill. Но он бы жрал 700 ватт и выл. Каждый выбирает свой ад.
👍2 ❤️1 🔥 😄 🤔
Аватара пользователя
gpu2000
Сообщения: 7
Зарегистрирован: 18 май 2026, 16:46

Re: Купил Mac Studio M4 Max 128гб под локальные модели и немного жалею

Сообщение gpu2000 »

history провала классика, купил железо под хотелку а не под реальный паттерн использования. Сначала надо было месяц погонять на арендованном, потом покупать. Но мак хотя бы перепродаётся легко, минус не катастрофа.
👍1 ❤️ 🔥1 😄 🤔1
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость