Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Теги: #C++#llama.cpp
Рейтинг: 58.9% · 42 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
demid_bit
Сообщения: 5
Зарегистрирован: Вт май 12, 2026 12:00 am

Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Сообщение demid_bit »

Прикрутил draft-модель (0.5B) к основной 32B через speculative decoding в llama.cpp. Скорость генерации выросла с 18 до ~29 ток/с на тех же задачах, качество не падает. Почему про это так мало говорят?
👍 ❤️ 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — luka_crypto
Про это мало говорят потому что порог вхождения неочевидный: нужна совместимость draft-модели с основной по токенизатору и словарю, а это сразу отсекает много пар. Qwen2.5-0.5B как драфт для Qwen2.5-32B работает отлично, именно потому что одна архитектура и один токенайзер. Попытки скрестить Llama-3 8B как драфт для Mistral-Large — мусор, несмотря на похожий размер. В llama.cpp флаг --draft-model…
Перейти к ответу →
Аватара пользователя
dockerbit3696
Сообщения: 1
Зарегистрирован: Вс май 10, 2026 8:55 pm

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Сообщение dockerbit3696 »

Потому что профит сильно зависит от того насколько draft угадывает токены. На предсказуемом тексте (код, шаблоны) ускорение огромное, на 'творческом' тексте draft мажет и профит тает. У тебя видимо код.
👍2 ❤️ 🔥 😄 🤔
Аватара пользователя
ivan3622
Сообщения: 4
Зарегистрирован: Пн май 11, 2026 4:56 pm

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Сообщение ivan3622 »

Ещё draft жрёт свою VRAM и его надо подобрать из того же семейства токенизатором, иначе не взлетит. Не на любой паре моделей это работает, отсюда и тишина: не plug-and-play.
👍1 ❤️ 🔥1 😄1 🤔
Аватара пользователя
danila_spb
Сообщения: 3
Зарегистрирован: Сб май 16, 2026 10:59 pm

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Сообщение danila_spb »

sergey_g, да, взял Qwen 0.5B к Qwen 32B, токенизатор один, поэтому и завелось гладко. С чужой draft было бы грустно.
👍 ❤️1 🔥 😄1 🤔1
Аватара пользователя
luka_crypto
Сообщения: 27
Зарегистрирован: Вс май 10, 2026 10:57 pm

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Сообщение luka_crypto »

✔ Лучший ответ — сформирован автоматически
Про это мало говорят потому что порог вхождения неочевидный: нужна совместимость draft-модели с основной по токенизатору и словарю, а это сразу отсекает много пар. Qwen2.5-0.5B как драфт для Qwen2.5-32B работает отлично, именно потому что одна архитектура и один токенайзер. Попытки скрестить Llama-3 8B как драфт для Mistral-Large — мусор, несмотря на похожий размер. В llama.cpp флаг --draft-model и --draft-p-min 0.8 для порога принятия токена.
👍2 ❤️ 🔥1 😄 🤔2
Аватара пользователя
julia_linux
Сообщения: 7
Зарегистрирован: Вт май 12, 2026 3:32 pm

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Сообщение julia_linux »

Реальная цифра зависит от типа задачи. На code completion и повторяющихся структурах (JSON, SQL, шаблоны) acceptance rate у меня 70-80%, скорость растёт как у тебя или больше. На creative writing с нестандартными словами acceptance rate падает до 30-40% и прирост минимальный — draft постоянно промахивается. Так что speculative decoding это не серебряная пуля, а оптимизация под конкретные паттерны нагрузки.
👍1 ❤️1 🔥1 😄 🤔
Аватара пользователя
milana_flow
Сообщения: 3
Зарегистрирован: Пт май 15, 2026 11:39 pm

Re: Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Сообщение milana_flow »

В vLLM speculative decoding уже есть нативно через --speculative-model и --num-speculative-tokens. На батч-инференсе прирост меньше чем в single-stream сценарии — там узкое место смещается на memory bandwidth а не на последовательную генерацию. Для Ollama поддержка только через llama.cpp backend и там это экспериментально, в конфиге Modelfile не выставить, только CLI-флаги при запуске сервера.
👍1 ❤️ 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK
Похожие запросы: qwen vs llama что лучше

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость