Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?
Рейтинг: 52.9% · 8 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?
Кидаю в Qwen3-Coder 30B-A3B весь контекст репы скриптом, выходит 55-60к токенов. Генерация потом нормальная, 30-35 t/s, но прогрев промпта 4 минуты, по логам pp около 270 t/s. Сижу жду как дурак.
Запуск: llama-server -m qwen3-coder-30b-a3b-q4_k_m.gguf -ngl 99 -c 65536 --n-cpu-moe 14, потому что целиком в 24 гига с таким контекстом не лезет.
И вторая беда, на каждый новый вопрос он весь промпт пересчитывает заново. Это лечится вообще или такова жизнь на одной карте?
Запуск: llama-server -m qwen3-coder-30b-a3b-q4_k_m.gguf -ngl 99 -c 65536 --n-cpu-moe 14, потому что целиком в 24 гига с таким контекстом не лезет.
И вторая беда, на каждый новый вопрос он весь промпт пересчитывает заново. Это лечится вообще или такова жизнь на одной карте?
✔ Лучший ответ сформирован автоматически — silentsegfault
jwil1440 писал(а):на каждый новый вопрос он весь промпт пересчитывает заново Вот это твоя главная проблема, а не 4 минуты. llama-server умеет кэшить префикс, добавь --cache-reuse 256 и следи чтобы начало промпта между запросами не менялось (системник, порядок файлов). Тогда пересчитывается только хвост с новым вопросом, секунды вместо минут. Если фронт у тебя тасует сообщения или подставляет тайм…
Re: Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?
-fa on включи и подними -ub до 2048 (и -b до 4096). pp у тебя упирается в размер микробатча, на дефолтных 512 карта простаивает. У меня на 3090 после поднятия батча pp вырос с ~300 до ~850 t/s на плотной 14B. На моешке с выгрузкой прирост будет скромнее, но будет.
- radiomaker
- Сообщения: 27
- Зарегистрирован: 24 май 2026, 00:35
- silentsegfault
- Сообщения: 10
- Зарегистрирован: 18 май 2026, 21:12
Re: Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?
✔ Лучший ответ — сформирован автоматически
Вот это твоя главная проблема, а не 4 минуты. llama-server умеет кэшить префикс, добавь --cache-reuse 256 и следи чтобы начало промпта между запросами не менялось (системник, порядок файлов). Тогда пересчитывается только хвост с новым вопросом, секунды вместо минут. Если фронт у тебя тасует сообщения или подставляет таймстамп в системник, кэш будет инвалидироваться на каждом запросе, проверь именно это.jwil1440 писал(а):на каждый новый вопрос он весь промпт пересчитывает заново
Re: Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?
на квен3-кодере это уже не так, его на длинном контексте специально дрючили, у меня иголку из 50к вытаскивает стабильно, совет из 2024-го. а вот по делу: --n-cpu-moe 14 это и есть тормоз для pp, эксперты на проце молотят каждый токен промпта. квантани kv в q8_0 (--cache-type-k q8_0 --cache-type-v q8_0), на 64к контекста освободишь гига полтора-два и сможешь уменьшить число выгруженных слоев. каждый возвращенный на карту слой это заметный плюс к ppradiomaker писал(а):все равно после 32к модель середину контекста видит так себе
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- LLM в продукте — кто как защищается от prompt injection? OWASP LLM Top 10
10 ответов · 668 просмотров
-
- CVE-2025-53773: prompt injection в Copilot привёл к RCE 9.6. Мы реально открыли ящик Пандоры с RAG
9 ответов · 421 просмотров
-
- Как тестировать LLM-приложения на prompt injection — методология и инструменты в 2026
6 ответов · 22 просмотров
-
- Claude Code съедает 200к токенов на простую задачу — как держать контекст под контролем?
5 ответов · 9 просмотров
-
- MCP-серверы съели 41к токенов контекста ещё до первого промпта — это вообще нормально?
4 ответов · 7 просмотров
-
- Ткнул /context и прифигел: MCP серверы съели 71k токенов до первого моего слова
5 ответов · 6 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость