kv-кэш

Объявленные сотни тысяч токенов контекста на практике упираются не в саму модель, а в KV-кэш, который линейно сжирает VRAM по мере роста диалога. Здесь разбираемся, почему llama-server проседает с 40 до 4 t/s после 30k токенов, как считать память под кэш на 24 ГБ, что дают квантование кэша (q8/q4), flash attention и выгрузка слоёв. Полезно тем, кто гоняет локалки на 3090/4090 и хочет реальный длинный контекст без свопа и деградации скорости.

3 тем, 17 ответов, 14 просмотров · все теги

Похожие теги: llama.cpp 3 контекст 3 vram 1 4090 1

Темы

Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало
в «Локальные LLM и open-source модели» · 7 ответов · 5 просмотров · 07 июн 2026, 19:38
llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?
в «Локальные LLM и open-source модели» · 5 ответов · 7 просмотров · 07 июн 2026, 06:29
Контекст 64к на 24 гигах: KV-кэш жрет больше половины VRAM. Как вы это разруливаете?
в «Локальные LLM и open-source модели» · 5 ответов · 2 просмотров · 18 май 2026, 08:13