Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?

jwil1440 · Сообщение **jwil1440** » 05 июн 2026, 23:59

Кидаю в Qwen3-Coder 30B-A3B весь контекст репы скриптом, выходит 55-60к токенов. Генерация потом нормальная, 30-35 t/s, но прогрев промпта 4 минуты, по логам pp около 270 t/s. Сижу жду как дурак.

Запуск: llama-server -m qwen3-coder-30b-a3b-q4_k_m.gguf -ngl 99 -c 65536 --n-cpu-moe 14, потому что целиком в 24 гига с таким контекстом не лезет.

И вторая беда, на каждый новый вопрос он весь промпт пересчитывает заново. Это лечится вообще или такова жизнь на одной карте?

FpgaDev · Сообщение **FpgaDev** » 06 июн 2026, 04:37

-fa on включи и подними -ub до 2048 (и -b до 4096). pp у тебя упирается в размер микробатча, на дефолтных 512 карта простаивает. У меня на 3090 после поднятия батча pp вырос с ~300 до ~850 t/s на плотной 14B. На моешке с выгрузкой прирост будет скромнее, но будет.

radiomaker · Сообщение **radiomaker** » 06 июн 2026, 09:11

а зачем тебе вся репа в контексте? нарежь на файлы, прикрути любой rag и не мучайся. все равно после 32к модель середину контекста видит так себе

silentsegfault

jwil1440 писал(а):на каждый новый вопрос он весь промпт пересчитывает заново

Вот это твоя главная проблема, а не 4 минуты. llama-server умеет кэшить префикс, добавь --cache-reuse 256 и следи чтобы начало промпта между запросами не менялось (системник, порядок файлов). Тогда пересчитывается только хвост с новым вопросом, секунды вместо минут. Если фронт у тебя тасует сообщения или подставляет таймстамп в системник, кэш будет инвалидироваться на каждом запросе, проверь именно это.

jwil1440 · Сообщение **jwil1440** » 06 июн 2026, 14:03

radiomaker писал(а):все равно после 32к модель середину контекста видит так себе

на квен3-кодере это уже не так, его на длинном контексте специально дрючили, у меня иголку из 50к вытаскивает стабильно, совет из 2024-го. а вот по делу: --n-cpu-moe 14 это и есть тормоз для pp, эксперты на проце молотят каждый токен промпта. квантани kv в q8_0 (--cache-type-k q8_0 --cache-type-v q8_0), на 64к контекста освободишь гига полтора-два и сможешь уменьшить число выгруженных слоев. каждый возвращенный на карту слой это заметный плюс к pp

trasche10 · Сообщение **trasche10** » 06 июн 2026, 17:08

4 минуты он еще жалуется. я на p40 за это время чайник вскипятить успеваю, у нее 20к промпта это перекур

Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?

Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?

Re: Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?

Re: Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?

Re: Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?

Re: Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?

Re: Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?

Кто сейчас на конференции