Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?

redislover · Сообщение **redislover** » 08 июн 2026, 07:22

Поставил вчера Ollama 0.24.0, затащил Qwen 3.6 через `ollama pull qwen3:6b`. В чейнджлоге написано про Multi-Token Prediction — типа модель угадывает несколько токенов вперёд, а потом верификатор проверяет за один проход. На бумаге обещают ~2x throughput в single-user-сценарии. У меня RTX 3090 24 ГБ. В реальности измерил через `ollama run` с кастомным промптом на 500 токенов — было 38 t/s, стало 61 t/s. Это честные ~60% прироста, не двукратный, но всё равно ощутимо. Кто ещё мерил? Особенно интересует, как на Apple Silicon ведёт себя, у них там MLX-runner теперь отдельный путь.

sainty · Сообщение **sainty** » 08 июн 2026, 09:03

У меня M3 Max 64 ГБ. После обновления Ollama действительно переключился на MLX-runner для Gemma 4 12B, и там прямо заметно — было около 45 t/s, стало под 80. Но с Qwen 3.6 MTP на Mac у меня пока не пошло — пишет, что MTP-heads не поддерживаются через Metal-бэкенд, только через MLX. Пробовал принудительно через OLLAMA_RUNNERS=llama, тогда скорость вернулась к базовой. Так что на маке MTP пока только для Gemma 4 работает нормально.

fpga_lord · Сообщение **fpga_lord** » 08 июн 2026, 10:28

Не понимаю ажиотажа. MTP — это та же спекулятивная генерация, только встроенная в веса модели, а не отдельная draft-модель. Работает хорошо только когда угадывает правильно, то есть на простых или предсказуемых текстах. На сложных рассуждениях, когда модель реально «думает», прирост будет минимальный — я мерял на code completion с нетривиальными функциями, получил +15% максимум. Реалистичнее ожидать 1.3–1.5x, а не 2x.

corvet · Сообщение **corvet** » 08 июн 2026, 11:45

Вот кстати ещё момент — llama.cpp тоже замерджил Qwen 3.6 MTP в мае, и там Windows CUDA 13.1 prebuilts появились. Я на Windows 11 с RTX 4080 Super брал готовый бинарь с релизов, запустил `llama-server -m qwen3.6-mtp-q4_k_m.gguf --mtp-draft 2 -ngl 99`. Скорость на 4080S вышла под 90 t/s на 6B — впечатляет. Если у кого нет желания возиться с Ollama, можно напрямую через llama-server, там больше контроля над параметрами.

lhoanii · Сообщение **lhoanii** » 08 июн 2026, 13:35

Я пробовал vLLM на том же Qwen 3.6 — серверный вариант под линукс, A100 40 ГБ. vLLM пока не поддерживает MTP из коробки, пришлось накатывать патч из PR на гитхабе. Зато throughput при multi-user нагрузке на vLLM всё равно выше, чем у Ollama, — у меня 8 параллельных запросов дают суммарно 420 t/s против 190 у Ollama. Для локального одиночного использования Ollama ок, для продакшн API — vLLM пока впереди.

roero · Сообщение **roero** » 08 июн 2026, 16:39

Подытожу для тех кто только смотрит: если у вас потребительская карта 16–24 ГБ и один пользователь — Ollama 0.24 + Qwen 3.6 это лучшая связка прямо сейчас. `ollama pull qwen3:6b` и готово, никаких танцев. Прирост реальный, пусть и не всегда 2x. Если нужен сервер под нагрузку — смотрите vLLM, там другой разговор.

Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?

Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?

Re: Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?

Re: Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?

Re: Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?

Re: Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?

Re: Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?

Кто сейчас на конференции