Контекст 128к на локалке жрет всю видеопамять, как ужать KV-кэш
Рейтинг: 0% · 0 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Контекст 128к на локалке жрет всю видеопамять, как ужать KV-кэш
Поставил контекст 128к на локальной 32B модели и KV-кэш сожрал 20+ гигов видеопамяти, в итоге сама модель уже не лезет. Проблема в том что KV-кэш растет линейно с длиной контекста и для 128к токенов это десятки гигабайт поверх весов. Вопрос: как ужать кэш без потери качества. Слышал про квантизацию KV в Q8 и Q4, про GQA которая уже встроена, про flash attention. Что реально работает на llama.cpp и насколько падает качество при Q4-кэше. Хочу 128к на 24гб карте и чтобы модель влезала.
✔ Лучший ответ сформирован автоматически — rojo7509
Разложу что реально помогает на 24гб, проверено на 4090 с 32B моделью. Первое и главное: -fa (flash attention) плюс квантизация кэша --cache-type-k q8_0 --cache-type-v q8_0. Это сразу режет KV почти вдвое и на q8 качество не страдает в пределах погрешности. Второе: сам квант модели опусти до IQ4_XS вместо Q4_K_M, теряешь чуть-чуть но освобождаешь пару гигов под кэш. Третье, если все равно не лезе…
Re: Контекст 128к на локалке жрет всю видеопамять, как ужать KV-кэш
@rustdev, квантуй кэш. в llama.cpp флаги --cache-type-k q8_0 --cache-type-v q8_0, режет память KV вдвое почти бесплатно по качеству. q4 уже заметно тупит на длинном контексте, я бы не ниже q8 опускался для серьезных задач
Re: Контекст 128к на локалке жрет всю видеопамять, как ужать KV-кэш
это про модели прошлого поколения. свежие веса 2026 с YaRN и нормальным train на длину держат 128к куда честнее, тесты на retrieval уже не разваливаются как раньше. так что нужны или нет зависит от модели, не обобщай. для RAG по большим докам 128к реально работают сейчасlentyaj писал(а):большинство моделей после 32-40к начинают терять детали из середины
- android_roman
- Сообщения: 45
- Зарегистрирован: 11 май 2026, 05:31
Re: Контекст 128к на локалке жрет всю видеопамять, как ужать KV-кэш
✔ Лучший ответ — сформирован автоматически
Разложу что реально помогает на 24гб, проверено на 4090 с 32B моделью. Первое и главное: -fa (flash attention) плюс квантизация кэша --cache-type-k q8_0 --cache-type-v q8_0. Это сразу режет KV почти вдвое и на q8 качество не страдает в пределах погрешности. Второе: сам квант модели опусти до IQ4_XS вместо Q4_K_M, теряешь чуть-чуть но освобождаешь пару гигов под кэш. Третье, если все равно не лезет: не держи весь 128к, юзай --ctx-size под реальную задачу. Мало кто гоняет полные 128к постоянно, поставь 48к и живи спокойно. Четвертое, экзотика: некоторые модели поддерживают SWA (sliding window attention), там кэш вообще не растет бесконечно, но это зависит от архитектуры конкретных весов, не у всех есть. По цифрам: 32B IQ4_XS + fa + KV q8 + контекст 48к у меня занимает ~21гб, влезает с запасом, генерация 30 t/s. Полные 128к с q8-кэшем на 24гб не влезут с 32B никак, либо модель меньше бери, либо контекст режь, физику не обманешь.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Контекст-окно растёт, а агент всё равно тупеет на больших задачах. Боремся с этим
14 ответов · 851 просмотров
-
-
- Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?
10 ответов · 326 просмотров
-
- Claude Code съедает 200к токенов на простую задачу — как держать контекст под контролем?
5 ответов · 10 просмотров
-
- Подключил 12 MCP-серверов — Claude Code стал заметно тупее. Кто как чистит контекст?
5 ответов · 10 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость