Контекст 128к на локалке жрет всю видеопамять, как ужать KV-кэш

rustdev · Сообщение **rustdev** » 16 май 2026, 19:58

Поставил контекст 128к на локальной 32B модели и KV-кэш сожрал 20+ гигов видеопамяти, в итоге сама модель уже не лезет. Проблема в том что KV-кэш растет линейно с длиной контекста и для 128к токенов это десятки гигабайт поверх весов. Вопрос: как ужать кэш без потери качества. Слышал про квантизацию KV в Q8 и Q4, про GQA которая уже встроена, про flash attention. Что реально работает на llama.cpp и насколько падает качество при Q4-кэше. Хочу 128к на 24гб карте и чтобы модель влезала.

rawgoblin · Сообщение **rawgoblin** » 16 май 2026, 22:13

@rustdev, квантуй кэш. в llama.cpp флаги --cache-type-k q8_0 --cache-type-v q8_0, режет память KV вдвое почти бесплатно по качеству. q4 уже заметно тупит на длинном контексте, я бы не ниже q8 опускался для серьезных задач

mvdelu · Сообщение **mvdelu** » 17 май 2026, 01:01

flash attention обязательно включи (-fa), без него кэш квантовать вообще нельзя в llama.cpp, оно требует fa. и -fa само по себе память под attention экономит

lentyaj · Сообщение **lentyaj** » 17 май 2026, 02:53

а тебе точно нужны 128к? по факту большинство моделей после 32-40к начинают терять детали из середины, lost in the middle никто не отменял. ты будешь платить памятью за контекст которым модель толком не пользуется

idlebteam · Сообщение **idlebteam** » 17 май 2026, 03:53

lentyaj писал(а):большинство моделей после 32-40к начинают терять детали из середины

это про модели прошлого поколения. свежие веса 2026 с YaRN и нормальным train на длину держат 128к куда честнее, тесты на retrieval уже не разваливаются как раньше. так что нужны или нет зависит от модели, не обобщай. для RAG по большим докам 128к реально работают сейчас

android_roman

подниму, тоже уперся в это на 4090

rojo7509 · Сообщение **rojo7509** » 17 май 2026, 09:08

Разложу что реально помогает на 24гб, проверено на 4090 с 32B моделью. Первое и главное: -fa (flash attention) плюс квантизация кэша --cache-type-k q8_0 --cache-type-v q8_0. Это сразу режет KV почти вдвое и на q8 качество не страдает в пределах погрешности. Второе: сам квант модели опусти до IQ4_XS вместо Q4_K_M, теряешь чуть-чуть но освобождаешь пару гигов под кэш. Третье, если все равно не лезет: не держи весь 128к, юзай --ctx-size под реальную задачу. Мало кто гоняет полные 128к постоянно, поставь 48к и живи спокойно. Четвертое, экзотика: некоторые модели поддерживают SWA (sliding window attention), там кэш вообще не растет бесконечно, но это зависит от архитектуры конкретных весов, не у всех есть. По цифрам: 32B IQ4_XS + fa + KV q8 + контекст 48к у меня занимает ~21гб, влезает с запасом, генерация 30 t/s. Полные 128к с q8-кэшем на 24гб не влезут с 32B никак, либо модель меньше бери, либо контекст режь, физику не обманешь.

svelte1 · Сообщение **svelte1** » 17 май 2026, 13:57

v-кэш кстати квантуется хуже чем k-кэш, если хочешь асимметрию ставь k q4 а v q8, на некоторых моделях прокатывает и экономит больше. но тестируй на своей задаче, это лотерея

Контекст 128к на локалке жрет всю видеопамять, как ужать KV-кэш

Контекст 128к на локалке жрет всю видеопамять, как ужать KV-кэш

Re: Контекст 128к на локалке жрет всю видеопамять, как ужать KV-кэш

Re: Контекст 128к на локалке жрет всю видеопамять, как ужать KV-кэш

Re: Контекст 128к на локалке жрет всю видеопамять, как ужать KV-кэш

Re: Контекст 128к на локалке жрет всю видеопамять, как ужать KV-кэш

Re: Контекст 128к на локалке жрет всю видеопамять, как ужать KV-кэш

Re: Контекст 128к на локалке жрет всю видеопамять, как ужать KV-кэш

Re: Контекст 128к на локалке жрет всю видеопамять, как ужать KV-кэш

Кто сейчас на конференции