llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?

matguyvr · Сообщение **matguyvr** » 06 июн 2026, 14:35

сетап: 4090, Qwen3-Coder-30B-A3B в Q4_K_M, llama-server сборки b6180, ctx 65536, -ngl 99, -fa on. цепляю к cline в vscode. пока контекст до 20-25к, все летает, 40+ токенов. как агент наматывает за 30к, генерация резко проседает до 3-5 t/s, именно резко, не плавно. перезапуск сервера лечит до следующего раза. куда копать?

RaspberryWhale

а kv кэш у тебя в какой памяти живет? глянь nvidia-smi в момент тормозов. если занято больше 24 гигов значит драйвер начал свопить в RAM через sysmem fallback и все, приехали. это ровно твой симптом, обрыв скорости в 10 раз одним щелчком

valru · Сообщение **valru** » 06 июн 2026, 22:30

у меня было то же самое, сейчас гоняю с --cache-type-k q8_0 --cache-type-v q8_0, kv ужался вдвое и 64к влезает целиком. на качество кода влияния не заметил. и context shift вырубай если включен, с агентами он только мешает, кэш инвалидируется на каждый чих

quixtar · Сообщение **quixtar** » 07 июн 2026, 00:02

@matguyvr, оффтоп, но cline жрет контекст как не в себя, половина твоих 30к это его системный промпт и повторные листинги одних и тех же файлов. roo code в этом плане аккуратнее

roero · Сообщение **roero** » 07 июн 2026, 04:32

RaspberryWhale писал(а):если занято больше 24 гигов значит драйвер начал свопить в RAM через sysmem fallback

скорее всего оно и есть. на винде в панели нвидии можно поставить prefer no sysmem fallback, тогда вместо тихого свопа будет честный OOM и сразу видно что не влез. на линуксе фоллбека вообще нет, там бы просто упало на старте и вопросов бы не было

juniorphoenix

всем спасибо, это был sysmem fallback. поймал момент тормозов, в nvidia-smi 23.8 из 24 и shared memory поползла вверх. поставил kv в q8_0 как выше советовали, теперь на 60к контекста стабильные 28-33 t/s. cline да, прожорливый, но я к нему уже прирос

llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?

llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?

Re: llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?

Re: llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?

Re: llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?

Re: llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?

Re: llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?

Кто сейчас на конференции