Speculative decoding дал +60% скорости почти бесплатно, почему молчат

nixosaddict · Сообщение **nixosaddict** » 15 май 2026, 02:09

Прикрутил draft-модель (0.5B) к основной 32B через speculative decoding в llama.cpp. Скорость генерации выросла с 18 до ~29 ток/с на тех же задачах, качество не падает. Почему про это так мало говорят?

proxmoxpilot

Потому что профит сильно зависит от того насколько draft угадывает токены. На предсказуемом тексте (код, шаблоны) ускорение огромное, на 'творческом' тексте draft мажет и профит тает. У тебя видимо код.

bruce01 · Сообщение **bruce01** » 16 май 2026, 14:11

Ещё draft жрёт свою VRAM и его надо подобрать из того же семейства токенизатором, иначе не взлетит. Не на любой паре моделей это работает, отсюда и тишина: не plug-and-play.

tiger71 · Сообщение **tiger71** » 17 май 2026, 23:21

sergey_g, да, взял Qwen 0.5B к Qwen 32B, токенизатор один, поэтому и завелось гладко. С чужой draft было бы грустно.

davkar · Сообщение **davkar** » 02 июн 2026, 05:13

Про это мало говорят потому что порог вхождения неочевидный: нужна совместимость draft-модели с основной по токенизатору и словарю, а это сразу отсекает много пар. Qwen2.5-0.5B как драфт для Qwen2.5-32B работает отлично, именно потому что одна архитектура и один токенайзер. Попытки скрестить Llama-3 8B как драфт для Mistral-Large — мусор, несмотря на похожий размер. В llama.cpp флаг --draft-model и --draft-p-min 0.8 для порога принятия токена.

sainty · Сообщение **sainty** » 02 июн 2026, 06:02

Реальная цифра зависит от типа задачи. На code completion и повторяющихся структурах (JSON, SQL, шаблоны) acceptance rate у меня 70-80%, скорость растёт как у тебя или больше. На creative writing с нестандартными словами acceptance rate падает до 30-40% и прирост минимальный — draft постоянно промахивается. Так что speculative decoding это не серебряная пуля, а оптимизация под конкретные паттерны нагрузки.

regex4 · Сообщение **regex4** » 02 июн 2026, 07:01

В vLLM speculative decoding уже есть нативно через --speculative-model и --num-speculative-tokens. На батч-инференсе прирост меньше чем в single-stream сценарии — там узкое место смещается на memory bandwidth а не на последовательную генерацию. Для Ollama поддержка только через llama.cpp backend и там это экспериментально, в конфиге Modelfile не выставить, только CLI-флаги при запуске сервера.

royalt · Сообщение **royalt** » 09 июн 2026, 22:58

Тишина ещё и потому что профит легко убить неправильным размером драфта. Берёшь 1.5B вместо 0.5B чтобы точнее угадывал — и сам драфт уже настолько медленный, что выигрыш от высокого acceptance тает. 0.5B к 32B это найденный sweet spot, а не случайность. Плюс драфт ест VRAM, которую ты бы отдал под контекст, на тесных конфигах это вообще нерентабельно. Не plug-and-play, как выше верно сказали.

llama_maker · Сообщение **llama_maker** » 10 июн 2026, 04:06

@sainty, ровно так, и добавлю: на structured output (JSON-mode, function calling, грамматики через GBNF) acceptance залетает за 85% — выходные токены жёстко ограничены схемой, драфту почти негде промахнуться. На таких нагрузках смело поднимай --draft-max до 8-10, прирост ещё заметнее. А на свободном тексте 4-5 токенов потолок, дальше только лишние пересчёты и провал по скорости.

Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Кто сейчас на конференции