llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?
Рейтинг: 20.7% · 1 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?
сетап: 4090, Qwen3-Coder-30B-A3B в Q4_K_M, llama-server сборки b6180, ctx 65536, -ngl 99, -fa on. цепляю к cline в vscode. пока контекст до 20-25к, все летает, 40+ токенов. как агент наматывает за 30к, генерация резко проседает до 3-5 t/s, именно резко, не плавно. перезапуск сервера лечит до следующего раза. куда копать?
✔ Лучший ответ сформирован автоматически — roero
RaspberryWhale писал(а):если занято больше 24 гигов значит драйвер начал свопить в RAM через sysmem fallback скорее всего оно и есть. на винде в панели нвидии можно поставить prefer no sysmem fallback, тогда вместо тихого свопа будет честный OOM и сразу видно что не влез. на линуксе фоллбека вообще нет, там бы просто упало на старте и вопросов бы не было
- RaspberryWhale
- Сообщения: 17
- Зарегистрирован: 11 май 2026, 16:44
Re: llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?
а kv кэш у тебя в какой памяти живет? глянь nvidia-smi в момент тормозов. если занято больше 24 гигов значит драйвер начал свопить в RAM через sysmem fallback и все, приехали. это ровно твой симптом, обрыв скорости в 10 раз одним щелчком
Re: llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?
у меня было то же самое, сейчас гоняю с --cache-type-k q8_0 --cache-type-v q8_0, kv ужался вдвое и 64к влезает целиком. на качество кода влияния не заметил. и context shift вырубай если включен, с агентами он только мешает, кэш инвалидируется на каждый чих
Re: llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?
✔ Лучший ответ — сформирован автоматически
скорее всего оно и есть. на винде в панели нвидии можно поставить prefer no sysmem fallback, тогда вместо тихого свопа будет честный OOM и сразу видно что не влез. на линуксе фоллбека вообще нет, там бы просто упало на старте и вопросов бы не былоRaspberryWhale писал(а):если занято больше 24 гигов значит драйвер начал свопить в RAM через sysmem fallback
- juniorphoenix
- Сообщения: 21
- Зарегистрирован: 14 май 2026, 18:58
Re: llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?
всем спасибо, это был sysmem fallback. поймал момент тормозов, в nvidia-smi 23.8 из 24 и shared memory поползла вверх. поставил kv в q8_0 как выше советовали, теперь на 60к контекста стабильные 28-33 t/s. cline да, прожорливый, но я к нему уже прирос
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Внедрили ClickHouse, а Postgres всё равно никуда не делся. Так и должно быть?
20 ответов · 1698 просмотров
-
- *arr-стек на сидбоксе через gluetun: VPN падает — и весь docker-стек встаёт колом
14 ответов · 948 просмотров
-
-
-
- Serverless — это всё ещё хайп или реально дешевле? Посчитал Lambda vs обычный контейнер
8 ответов · 363 просмотров
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость