контекст
Заявленные 128k токенов на практике оказываются сказкой: после 40k модель начинает заметно тупеть, а llama-server проседает с 40 до 4 t/s. Обсуждают, как удержать контекстное окно под контролем, когда простая задача съедает 200 тысяч токенов, а дюжина подключенных MCP-серверов отъедает десятки тысяч еще до первого вашего слова. Будет полезно всем, кто гоняет Claude Code и локальные модели на длинных сессиях и устал платить за раздутый контекст вместо результата.
11 тем, 59 ответов, 52 просмотров · все теги
Похожие теги:
Claude Code 5llama.cpp 5MCP 4kv-кэш 3Qwen 2kv cache 2токены 1ai-разработка 1ai-агенты 1агенты 1vram 1скорость токенов 14090 1
- Темы
-
- MCP-серверы съели 41к токенов контекста ещё до первого промпта — это вообще нормально?
в «AI-ассистированная разработка» · 4 ответов · 5 просмотров · 10 июн 2026, 03:16
-
- Подключил 12 MCP-серверов — Claude Code стал заметно тупее. Кто как чистит контекст?
в «AI-ассистированная разработка» · 5 ответов · 8 просмотров · 10 июн 2026, 01:57
-
- Claude Code съедает 200к токенов на простую задачу — как держать контекст под контролем?
в «AI-ассистированная разработка» · 5 ответов · 7 просмотров · 09 июн 2026, 10:38
-
- Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало
в «Локальные LLM и open-source модели» · 7 ответов · 5 просмотров · 07 июн 2026, 19:38
-
- llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?
в «Локальные LLM и open-source модели» · 5 ответов · 7 просмотров · 07 июн 2026, 06:29
-
- Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?
в «Локальные LLM и open-source модели» · 5 ответов · 2 просмотров · 06 июн 2026, 17:08
-
- Понаставил MCP серверов и Claude Code заметно отупел, у всех так?
в «AI-ассистированная разработка» · 6 ответов · 1 просмотров · 31 май 2026, 00:34
-
- Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах
в «Локальные LLM и open-source модели» · 5 ответов · 6 просмотров · 27 май 2026, 05:37
-
- Ткнул /context и прифигел: MCP серверы съели 71k токенов до первого моего слова
в «AI-ассистированная разработка» · 5 ответов · 4 просмотров · 21 май 2026, 11:19
-
- Контекст 64к на 24 гигах: KV-кэш жрет больше половины VRAM. Как вы это разруливаете?
в «Локальные LLM и open-source модели» · 5 ответов · 2 просмотров · 18 май 2026, 08:13
-
- 256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?
в «Локальные LLM и open-source модели» · 7 ответов · 5 просмотров · 17 май 2026, 07:22