Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?

Рейтинг: 0% · 0 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
redislover
Сообщения: 29
Зарегистрирован: 12 май 2026, 03:09

Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?

Сообщение redislover »

Поставил вчера Ollama 0.24.0, затащил Qwen 3.6 через `ollama pull qwen3:6b`. В чейнджлоге написано про Multi-Token Prediction — типа модель угадывает несколько токенов вперёд, а потом верификатор проверяет за один проход. На бумаге обещают ~2x throughput в single-user-сценарии. У меня RTX 3090 24 ГБ. В реальности измерил через `ollama run` с кастомным промптом на 500 токенов — было 38 t/s, стало 61 t/s. Это честные ~60% прироста, не двукратный, но всё равно ощутимо. Кто ещё мерил? Особенно интересует, как на Apple Silicon ведёт себя, у них там MLX-runner теперь отдельный путь.
👍2 ❤️ 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — sainty
У меня M3 Max 64 ГБ. После обновления Ollama действительно переключился на MLX-runner для Gemma 4 12B, и там прямо заметно — было около 45 t/s, стало под 80. Но с Qwen 3.6 MTP на Mac у меня пока не пошло — пишет, что MTP-heads не поддерживаются через Metal-бэкенд, только через MLX. Пробовал принудительно через OLLAMA_RUNNERS=llama, тогда скорость вернулась к базовой. Так что на маке MTP пока толь…
Перейти к ответу →
Аватара пользователя
sainty
Сообщения: 94
Зарегистрирован: 11 май 2026, 02:57

Re: Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?

Сообщение sainty »

✔ Лучший ответ — сформирован автоматически
У меня M3 Max 64 ГБ. После обновления Ollama действительно переключился на MLX-runner для Gemma 4 12B, и там прямо заметно — было около 45 t/s, стало под 80. Но с Qwen 3.6 MTP на Mac у меня пока не пошло — пишет, что MTP-heads не поддерживаются через Metal-бэкенд, только через MLX. Пробовал принудительно через OLLAMA_RUNNERS=llama, тогда скорость вернулась к базовой. Так что на маке MTP пока только для Gemma 4 работает нормально.
👍 ❤️ 🔥2 😄 🤔
Аватара пользователя
fpga_lord
Сообщения: 56
Зарегистрирован: 16 май 2026, 06:00

Re: Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?

Сообщение fpga_lord »

Не понимаю ажиотажа. MTP — это та же спекулятивная генерация, только встроенная в веса модели, а не отдельная draft-модель. Работает хорошо только когда угадывает правильно, то есть на простых или предсказуемых текстах. На сложных рассуждениях, когда модель реально «думает», прирост будет минимальный — я мерял на code completion с нетривиальными функциями, получил +15% максимум. Реалистичнее ожидать 1.3–1.5x, а не 2x.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
corvet
Сообщения: 38
Зарегистрирован: 16 май 2026, 06:36

Re: Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?

Сообщение corvet »

Вот кстати ещё момент — llama.cpp тоже замерджил Qwen 3.6 MTP в мае, и там Windows CUDA 13.1 prebuilts появились. Я на Windows 11 с RTX 4080 Super брал готовый бинарь с релизов, запустил `llama-server -m qwen3.6-mtp-q4_k_m.gguf --mtp-draft 2 -ngl 99`. Скорость на 4080S вышла под 90 t/s на 6B — впечатляет. Если у кого нет желания возиться с Ollama, можно напрямую через llama-server, там больше контроля над параметрами.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
lhoanii
Сообщения: 8
Зарегистрирован: 15 май 2026, 07:30

Re: Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?

Сообщение lhoanii »

Я пробовал vLLM на том же Qwen 3.6 — серверный вариант под линукс, A100 40 ГБ. vLLM пока не поддерживает MTP из коробки, пришлось накатывать патч из PR на гитхабе. Зато throughput при multi-user нагрузке на vLLM всё равно выше, чем у Ollama, — у меня 8 параллельных запросов дают суммарно 420 t/s против 190 у Ollama. Для локального одиночного использования Ollama ок, для продакшн API — vLLM пока впереди.
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
roero
Сообщения: 23
Зарегистрирован: 11 май 2026, 05:17

Re: Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?

Сообщение roero »

Подытожу для тех кто только смотрит: если у вас потребительская карта 16–24 ГБ и один пользователь — Ollama 0.24 + Qwen 3.6 это лучшая связка прямо сейчас. `ollama pull qwen3:6b` и готово, никаких танцев. Прирост реальный, пусть и не всегда 2x. Если нужен сервер под нагрузку — смотрите vLLM, там другой разговор.
👍 ❤️ 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя