speculative decoding llama.cpp
Обсуждения по теме «speculative decoding llama.cpp» — 1 тем, 7 ответов, 3 просмотров. Вопросы, решения и практический опыт участников. · все теги
Похожие теги:
draft модель квант 1ускорение инференса локально 1
- Темы
-
- Speculative decoding в llama.cpp дал прирост скорости, но качество поплыло. Как настроить draft-модель правильно
в «Локальные LLM и open-source модели» · 7 ответов · 3 просмотров · 12 июн 2026, 16:14