Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?
Рейтинг: 0% · 0 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- redislover
- Сообщения: 29
- Зарегистрирован: 12 май 2026, 03:09
Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?
Поставил вчера Ollama 0.24.0, затащил Qwen 3.6 через `ollama pull qwen3:6b`. В чейнджлоге написано про Multi-Token Prediction — типа модель угадывает несколько токенов вперёд, а потом верификатор проверяет за один проход. На бумаге обещают ~2x throughput в single-user-сценарии. У меня RTX 3090 24 ГБ. В реальности измерил через `ollama run` с кастомным промптом на 500 токенов — было 38 t/s, стало 61 t/s. Это честные ~60% прироста, не двукратный, но всё равно ощутимо. Кто ещё мерил? Особенно интересует, как на Apple Silicon ведёт себя, у них там MLX-runner теперь отдельный путь.
✔ Лучший ответ сформирован автоматически — sainty
У меня M3 Max 64 ГБ. После обновления Ollama действительно переключился на MLX-runner для Gemma 4 12B, и там прямо заметно — было около 45 t/s, стало под 80. Но с Qwen 3.6 MTP на Mac у меня пока не пошло — пишет, что MTP-heads не поддерживаются через Metal-бэкенд, только через MLX. Пробовал принудительно через OLLAMA_RUNNERS=llama, тогда скорость вернулась к базовой. Так что на маке MTP пока толь…
Re: Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?
✔ Лучший ответ — сформирован автоматически
У меня M3 Max 64 ГБ. После обновления Ollama действительно переключился на MLX-runner для Gemma 4 12B, и там прямо заметно — было около 45 t/s, стало под 80. Но с Qwen 3.6 MTP на Mac у меня пока не пошло — пишет, что MTP-heads не поддерживаются через Metal-бэкенд, только через MLX. Пробовал принудительно через OLLAMA_RUNNERS=llama, тогда скорость вернулась к базовой. Так что на маке MTP пока только для Gemma 4 работает нормально.
Re: Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?
Не понимаю ажиотажа. MTP — это та же спекулятивная генерация, только встроенная в веса модели, а не отдельная draft-модель. Работает хорошо только когда угадывает правильно, то есть на простых или предсказуемых текстах. На сложных рассуждениях, когда модель реально «думает», прирост будет минимальный — я мерял на code completion с нетривиальными функциями, получил +15% максимум. Реалистичнее ожидать 1.3–1.5x, а не 2x.
Re: Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?
Вот кстати ещё момент — llama.cpp тоже замерджил Qwen 3.6 MTP в мае, и там Windows CUDA 13.1 prebuilts появились. Я на Windows 11 с RTX 4080 Super брал готовый бинарь с релизов, запустил `llama-server -m qwen3.6-mtp-q4_k_m.gguf --mtp-draft 2 -ngl 99`. Скорость на 4080S вышла под 90 t/s на 6B — впечатляет. Если у кого нет желания возиться с Ollama, можно напрямую через llama-server, там больше контроля над параметрами.
Re: Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?
Я пробовал vLLM на том же Qwen 3.6 — серверный вариант под линукс, A100 40 ГБ. vLLM пока не поддерживает MTP из коробки, пришлось накатывать патч из PR на гитхабе. Зато throughput при multi-user нагрузке на vLLM всё равно выше, чем у Ollama, — у меня 8 параллельных запросов дают суммарно 420 t/s против 190 у Ollama. Для локального одиночного использования Ollama ок, для продакшн API — vLLM пока впереди.
Re: Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?
Подытожу для тех кто только смотрит: если у вас потребительская карта 16–24 ГБ и один пользователь — Ollama 0.24 + Qwen 3.6 это лучшая связка прямо сейчас. `ollama pull qwen3:6b` и готово, никаких танцев. Прирост реальный, пусть и не всегда 2x. Если нужен сервер под нагрузку — смотрите vLLM, там другой разговор.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
- Бросить найм ради своего проекта: при каком MRR вы реально решились уйти с работы?
10 ответов · 2040 просмотров
-
- С чего реально начать в пентесте в 2026? TryHackMe, HTB или сразу сертификаты?
12 ответов · 1917 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя