Speculative decoding дал +60% скорости почти бесплатно, почему молчат
Рейтинг: 58.9% · 42 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
✔ Лучший ответ сформирован автоматически — luka_crypto
Про это мало говорят потому что порог вхождения неочевидный: нужна совместимость draft-модели с основной по токенизатору и словарю, а это сразу отсекает много пар. Qwen2.5-0.5B как драфт для Qwen2.5-32B работает отлично, именно потому что одна архитектура и один токенайзер. Попытки скрестить Llama-3 8B как драфт для Mistral-Large — мусор, несмотря на похожий размер. В llama.cpp флаг --draft-model…
- dockerbit3696
- Сообщения: 1
- Зарегистрирован: Вс май 10, 2026 8:55 pm
- danila_spb
- Сообщения: 3
- Зарегистрирован: Сб май 16, 2026 10:59 pm
- luka_crypto
- Сообщения: 27
- Зарегистрирован: Вс май 10, 2026 10:57 pm
Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат
✔ Лучший ответ — сформирован автоматически
Про это мало говорят потому что порог вхождения неочевидный: нужна совместимость draft-модели с основной по токенизатору и словарю, а это сразу отсекает много пар. Qwen2.5-0.5B как драфт для Qwen2.5-32B работает отлично, именно потому что одна архитектура и один токенайзер. Попытки скрестить Llama-3 8B как драфт для Mistral-Large — мусор, несмотря на похожий размер. В llama.cpp флаг --draft-model и --draft-p-min 0.8 для порога принятия токена.
- julia_linux
- Сообщения: 7
- Зарегистрирован: Вт май 12, 2026 3:32 pm
Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат
Реальная цифра зависит от типа задачи. На code completion и повторяющихся структурах (JSON, SQL, шаблоны) acceptance rate у меня 70-80%, скорость растёт как у тебя или больше. На creative writing с нестандартными словами acceptance rate падает до 30-40% и прирост минимальный — draft постоянно промахивается. Так что speculative decoding это не серебряная пуля, а оптимизация под конкретные паттерны нагрузки.
- milana_flow
- Сообщения: 3
- Зарегистрирован: Пт май 15, 2026 11:39 pm
Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат
В vLLM speculative decoding уже есть нативно через --speculative-model и --num-speculative-tokens. На батч-инференсе прирост меньше чем в single-stream сценарии — там узкое место смещается на memory bandwidth а не на последовательную генерацию. Для Ollama поддержка только через llama.cpp backend и там это экспериментально, в конфиге Modelfile не выставить, только CLI-флаги при запуске сервера.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Ollama vs llama.cpp напрямую — реально ли 23% разница в скорости или маркетинг?
6 ответов · 11 просмотров
-
Похожие запросы:
qwen vs llama что лучше
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость