llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?

Рейтинг: 20.7% · 1 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
matguyvr
Сообщения: 65
Зарегистрирован: 14 май 2026, 08:48

llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?

Сообщение matguyvr »

сетап: 4090, Qwen3-Coder-30B-A3B в Q4_K_M, llama-server сборки b6180, ctx 65536, -ngl 99, -fa on. цепляю к cline в vscode. пока контекст до 20-25к, все летает, 40+ токенов. как агент наматывает за 30к, генерация резко проседает до 3-5 t/s, именно резко, не плавно. перезапуск сервера лечит до следующего раза. куда копать?
👍1 ❤️1 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — roero
RaspberryWhale писал(а):если занято больше 24 гигов значит драйвер начал свопить в RAM через sysmem fallback скорее всего оно и есть. на винде в панели нвидии можно поставить prefer no sysmem fallback, тогда вместо тихого свопа будет честный OOM и сразу видно что не влез. на линуксе фоллбека вообще нет, там бы просто упало на старте и вопросов бы не было
Перейти к ответу →
Аватара пользователя
RaspberryWhale
Сообщения: 17
Зарегистрирован: 11 май 2026, 16:44

Re: llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?

Сообщение RaspberryWhale »

а kv кэш у тебя в какой памяти живет? глянь nvidia-smi в момент тормозов. если занято больше 24 гигов значит драйвер начал свопить в RAM через sysmem fallback и все, приехали. это ровно твой симптом, обрыв скорости в 10 раз одним щелчком
👍2 ❤️1 🔥 😄 🤔
Аватара пользователя
valru
Сообщения: 63
Зарегистрирован: 11 май 2026, 05:24

Re: llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?

Сообщение valru »

у меня было то же самое, сейчас гоняю с --cache-type-k q8_0 --cache-type-v q8_0, kv ужался вдвое и 64к влезает целиком. на качество кода влияния не заметил. и context shift вырубай если включен, с агентами он только мешает, кэш инвалидируется на каждый чих
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
quixtar
Сообщения: 15
Зарегистрирован: 13 май 2026, 04:09

Re: llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?

Сообщение quixtar »

@matguyvr, оффтоп, но cline жрет контекст как не в себя, половина твоих 30к это его системный промпт и повторные листинги одних и тех же файлов. roo code в этом плане аккуратнее
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
roero
Сообщения: 23
Зарегистрирован: 11 май 2026, 05:17

Re: llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?

Сообщение roero »

✔ Лучший ответ — сформирован автоматически
RaspberryWhale писал(а):если занято больше 24 гигов значит драйвер начал свопить в RAM через sysmem fallback
скорее всего оно и есть. на винде в панели нвидии можно поставить prefer no sysmem fallback, тогда вместо тихого свопа будет честный OOM и сразу видно что не влез. на линуксе фоллбека вообще нет, там бы просто упало на старте и вопросов бы не было
👍2 ❤️ 🔥 😄 🤔
Аватара пользователя
juniorphoenix
Сообщения: 21
Зарегистрирован: 14 май 2026, 18:58

Re: llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?

Сообщение juniorphoenix »

всем спасибо, это был sysmem fallback. поймал момент тормозов, в nvidia-smi 23.8 из 24 и shared memory поползла вверх. поставил kv в q8_0 как выше советовали, теперь на 60к контекста стабильные 28-33 t/s. cline да, прожорливый, но я к нему уже прирос
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость