kv-кэш

Объявленные сотни тысяч токенов контекста на практике упираются не в саму модель, а в KV-кэш, который линейно сжирает VRAM по мере роста диалога. Здесь разбираемся, почему llama-server проседает с 40 до 4 t/s после 30k токенов, как считать память под кэш на 24 ГБ, что дают квантование кэша (q8/q4), flash attention и выгрузка слоёв. Полезно тем, кто гоняет локалки на 3090/4090 и хочет реальный длинный контекст без свопа и деградации скорости.

3 тем, 17 ответов, 14 просмотров · все теги

Похожие теги: llama.cpp 3контекст 3vram 14090 1