Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

lentyaj · Сообщение **lentyaj** » 09 июн 2026, 21:20

Гоняю Qwen3 32B в Q4_K_M на одной 3090, получаю около 28-30 ток/сек на генерации при пустом контексте. Хочу понять это норма или я где-то проседаю. Сборка llama.cpp свежая, flash attention включен, контекст 8к, вся модель влезает в 24гб с запасом гига полтора. На префилле 1500 токенов промпта обрабатываются примерно за 0.8 сек. Карта в PCIe 4.0 x16, проц 5800X. Может кто на такой же конфигурации замерял, интересно сравнить.

envoy69 · Сообщение **envoy69** » 10 июн 2026, 00:02

@lentyaj, норм цифры, у меня на 3090 примерно так же выходит, 27-31 в зависимости от того что в фоне крутится. Q4_K_M на 32B это адекватный режим для одной карты

anton_k8s · Сообщение **anton_k8s** » 10 июн 2026, 04:33

А ты точно flash attention собрал, а не просто флаг воткнул? Проверь что в логах при загрузке пишет про FA. У меня пока я билд не пересобрал с -DGGML_CUDA_FA_ALL_QUANTS было ощущение что включено, а по факту нет

vuepro · Сообщение **vuepro** » 10 июн 2026, 08:27

lentyaj писал(а):на префилле 1500 токенов промпта обрабатываются примерно за 0.8 сек

это как раз говорит что у тебя всё ок с префиллом, под 1900 ток/сек препроцессинг для 3090 нормально. Если бы FA не работал, на длинном контексте просадка по памяти и скорости была бы заметнее. Замерь на 16-20к контекста, вот там разница вылезает

heckman · Сообщение **heckman** » 10 июн 2026, 12:30

@envoy69, 30 ток/сек это медленно лол. У меня на 4090 та же модель под 50 идёт

qemu_user · Сообщение **qemu_user** » 10 июн 2026, 16:46

@anton_k8s, @DDR5enjoyer ну так 4090 это другая карта и память быстрее на треть почти, что ты сравниваешь. Человек спросил про 3090, на ней 28-30 это потолок для Q4 32B и есть. Тут вопрос не как разогнаться а правильно ли он замеряет

krayzie · Сообщение **krayzie** » 10 июн 2026, 17:11

Развёрнуто отвечу раз тема живая. На 3090 под Qwen3 32B Q4_K_M реальный потолок генерации это память, а не вычисления. Карта даёт 936 гб/с, модель в Q4 весит примерно 19-20гб, плюс kv cache. На каждый токен надо прогнать веса через шину, отсюда чисто теоретический предел около 45-47 ток/сек если бы шина была занята только этим. На практике теряешь на kv cache, на сэмплинге, на питоновской обвязке если через сервер ходишь. 28-30 на голом llama.cpp с FA это здоровая цифра. Чтобы выжать больше: 1) бери Q4_K_S или даже IQ4_XS, они чуть меньше весят и memory bound задача ускоряется, у меня IQ4_XS дал +4 ток/сек при почти той же якобы перплексии. 2) контекст не раздувай без нужды, kv cache ест ту же память и шину. 3) если карта зимой холодная боост держится дольше, летом в душной комнате она троттлит и ты теряешь 10 процентов молча. Проверь hwinfo на удержание частоты под нагрузкой, у многих именно тут собака зарыта.

timur12 · Сообщение **timur12** » 10 июн 2026, 20:40

вот про троттлинг плюсую, у меня летом без доп вентилятора на боковую стенку 3090 сбрасывала с 1900 до 1650 мгц и токены проседали, думал модель виновата а это просто горячо

jpearce · Сообщение **jpearce** » 10 июн 2026, 23:05

krayzie писал(а):бери Q4_K_S или даже IQ4_XS, они чуть меньше весят и memory bound задача ускоряется

тут аккуратнее, IQ кванты считаются медленнее на старых архитектурах потому что там сложнее распаковка. На 3090 (Ampere) IQ4_XS иногда наоборот медленнее K-квантов несмотря на меньший размер, надо мерить именно на своей карте а не верить что меньше=быстрее. У меня на 3090 IQ4_XS дал минус 2 ток/сек против Q4_K_M, обратный эффект

Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Кто сейчас на конференции