Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?

Рейтинг: 52.9% · 8 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
jwil1440
Сообщения: 51
Зарегистрирован: 11 май 2026, 05:07

Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?

Сообщение jwil1440 »

Кидаю в Qwen3-Coder 30B-A3B весь контекст репы скриптом, выходит 55-60к токенов. Генерация потом нормальная, 30-35 t/s, но прогрев промпта 4 минуты, по логам pp около 270 t/s. Сижу жду как дурак.

Запуск: llama-server -m qwen3-coder-30b-a3b-q4_k_m.gguf -ngl 99 -c 65536 --n-cpu-moe 14, потому что целиком в 24 гига с таким контекстом не лезет.

И вторая беда, на каждый новый вопрос он весь промпт пересчитывает заново. Это лечится вообще или такова жизнь на одной карте?
👍1 ❤️ 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — silentsegfault
jwil1440 писал(а):на каждый новый вопрос он весь промпт пересчитывает заново Вот это твоя главная проблема, а не 4 минуты. llama-server умеет кэшить префикс, добавь --cache-reuse 256 и следи чтобы начало промпта между запросами не менялось (системник, порядок файлов). Тогда пересчитывается только хвост с новым вопросом, секунды вместо минут. Если фронт у тебя тасует сообщения или подставляет тайм…
Перейти к ответу →
Аватара пользователя
FpgaDev
Сообщения: 43
Зарегистрирован: 12 май 2026, 04:40

Re: Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?

Сообщение FpgaDev »

-fa on включи и подними -ub до 2048 (и -b до 4096). pp у тебя упирается в размер микробатча, на дефолтных 512 карта простаивает. У меня на 3090 после поднятия батча pp вырос с ~300 до ~850 t/s на плотной 14B. На моешке с выгрузкой прирост будет скромнее, но будет.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
radiomaker
Сообщения: 27
Зарегистрирован: 24 май 2026, 00:35

Re: Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?

Сообщение radiomaker »

а зачем тебе вся репа в контексте? нарежь на файлы, прикрути любой rag и не мучайся. все равно после 32к модель середину контекста видит так себе
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
silentsegfault
Сообщения: 10
Зарегистрирован: 18 май 2026, 21:12

Re: Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?

Сообщение silentsegfault »

✔ Лучший ответ — сформирован автоматически
jwil1440 писал(а):на каждый новый вопрос он весь промпт пересчитывает заново
Вот это твоя главная проблема, а не 4 минуты. llama-server умеет кэшить префикс, добавь --cache-reuse 256 и следи чтобы начало промпта между запросами не менялось (системник, порядок файлов). Тогда пересчитывается только хвост с новым вопросом, секунды вместо минут. Если фронт у тебя тасует сообщения или подставляет таймстамп в системник, кэш будет инвалидироваться на каждом запросе, проверь именно это.
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
jwil1440
Сообщения: 51
Зарегистрирован: 11 май 2026, 05:07

Re: Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?

Сообщение jwil1440 »

radiomaker писал(а):все равно после 32к модель середину контекста видит так себе
на квен3-кодере это уже не так, его на длинном контексте специально дрючили, у меня иголку из 50к вытаскивает стабильно, совет из 2024-го. а вот по делу: --n-cpu-moe 14 это и есть тормоз для pp, эксперты на проце молотят каждый токен промпта. квантани kv в q8_0 (--cache-type-k q8_0 --cache-type-v q8_0), на 64к контекста освободишь гига полтора-два и сможешь уменьшить число выгруженных слоев. каждый возвращенный на карту слой это заметный плюс к pp
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
trasche10
Сообщения: 19
Зарегистрирован: 11 май 2026, 18:00

Re: Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?

Сообщение trasche10 »

4 минуты он еще жалуется. я на p40 за это время чайник вскипятить успеваю, у нее 20к промпта это перекур
👍2 ❤️ 🔥1 😄 🤔1
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость