Speculative decoding дал +60% скорости почти бесплатно, почему молчат

demid_bit · Чт май 14, 2026 11:09 pm

Прикрутил draft-модель (0.5B) к основной 32B через speculative decoding в llama.cpp. Скорость генерации выросла с 18 до ~29 ток/с на тех же задачах, качество не падает. Почему про это так мало говорят?

dockerbit3696 · Пт май 15, 2026 3:02 pm

Потому что профит сильно зависит от того насколько draft угадывает токены. На предсказуемом тексте (код, шаблоны) ускорение огромное, на 'творческом' тексте draft мажет и профит тает. У тебя видимо код.

ivan3622 · Сб май 16, 2026 11:11 am

Ещё draft жрёт свою VRAM и его надо подобрать из того же семейства токенизатором, иначе не взлетит. Не на любой паре моделей это работает, отсюда и тишина: не plug-and-play.

danila_spb · Вс май 17, 2026 8:21 pm

sergey_g, да, взял Qwen 0.5B к Qwen 32B, токенизатор один, поэтому и завелось гладко. С чужой draft было бы грустно.

luka_crypto · Вт июн 02, 2026 2:13 am

Про это мало говорят потому что порог вхождения неочевидный: нужна совместимость draft-модели с основной по токенизатору и словарю, а это сразу отсекает много пар. Qwen2.5-0.5B как драфт для Qwen2.5-32B работает отлично, именно потому что одна архитектура и один токенайзер. Попытки скрестить Llama-3 8B как драфт для Mistral-Large — мусор, несмотря на похожий размер. В llama.cpp флаг --draft-model и --draft-p-min 0.8 для порога принятия токена.

julia_linux · Вт июн 02, 2026 3:02 am

Реальная цифра зависит от типа задачи. На code completion и повторяющихся структурах (JSON, SQL, шаблоны) acceptance rate у меня 70-80%, скорость растёт как у тебя или больше. На creative writing с нестандартными словами acceptance rate падает до 30-40% и прирост минимальный — draft постоянно промахивается. Так что speculative decoding это не серебряная пуля, а оптимизация под конкретные паттерны нагрузки.

milana_flow · Вт июн 02, 2026 4:01 am

В vLLM speculative decoding уже есть нативно через --speculative-model и --num-speculative-tokens. На батч-инференсе прирост меньше чем в single-stream сценарии — там узкое место смещается на memory bandwidth а не на последовательную генерацию. Для Ollama поддержка только через llama.cpp backend и там это экспериментально, в конфиге Modelfile не выставить, только CLI-флаги при запуске сервера.

Cyberlake

Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Кто сейчас на конференции