контекст

Заявленные 128k токенов на практике оказываются сказкой: после 40k модель начинает заметно тупеть, а llama-server проседает с 40 до 4 t/s. Обсуждают, как удержать контекстное окно под контролем, когда простая задача съедает 200 тысяч токенов, а дюжина подключенных MCP-серверов отъедает десятки тысяч еще до первого вашего слова. Будет полезно всем, кто гоняет Claude Code и локальные модели на длинных сессиях и устал платить за раздутый контекст вместо результата.

11 тем, 59 ответов, 52 просмотров · все теги

Похожие теги: Claude Code 5llama.cpp 5MCP 4kv-кэш 3Qwen 2kv cache 2токены 1ai-разработка 1ai-агенты 1агенты 1vram 1скорость токенов 14090 1
  • Темы