Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Рейтинг: 0% · 0 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
lentyaj
Сообщения: 68
Зарегистрирован: 11 май 2026, 00:17

Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Сообщение lentyaj »

Гоняю Qwen3 32B в Q4_K_M на одной 3090, получаю около 28-30 ток/сек на генерации при пустом контексте. Хочу понять это норма или я где-то проседаю. Сборка llama.cpp свежая, flash attention включен, контекст 8к, вся модель влезает в 24гб с запасом гига полтора. На префилле 1500 токенов промпта обрабатываются примерно за 0.8 сек. Карта в PCIe 4.0 x16, проц 5800X. Может кто на такой же конфигурации замерял, интересно сравнить.
👍1 ❤️ 🔥1 😄 🤔
✔ Лучший ответ сформирован автоматически — krayzie
Развёрнуто отвечу раз тема живая. На 3090 под Qwen3 32B Q4_K_M реальный потолок генерации это память, а не вычисления. Карта даёт 936 гб/с, модель в Q4 весит примерно 19-20гб, плюс kv cache. На каждый токен надо прогнать веса через шину, отсюда чисто теоретический предел около 45-47 ток/сек если бы шина была занята только этим. На практике теряешь на kv cache, на сэмплинге, на питоновской обвязке…
Перейти к ответу →
Аватара пользователя
envoy69
Сообщения: 20
Зарегистрирован: 12 май 2026, 19:29

Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Сообщение envoy69 »

@lentyaj, норм цифры, у меня на 3090 примерно так же выходит, 27-31 в зависимости от того что в фоне крутится. Q4_K_M на 32B это адекватный режим для одной карты
👍1 ❤️ 🔥 😄1 🤔1
Аватара пользователя
anton_k8s
Сообщения: 26
Зарегистрирован: 12 май 2026, 03:23

Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Сообщение anton_k8s »

А ты точно flash attention собрал, а не просто флаг воткнул? Проверь что в логах при загрузке пишет про FA. У меня пока я билд не пересобрал с -DGGML_CUDA_FA_ALL_QUANTS было ощущение что включено, а по факту нет
👍1 ❤️ 🔥 😄2 🤔
Аватара пользователя
vuepro
Сообщения: 6
Зарегистрирован: 23 май 2026, 06:35

Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Сообщение vuepro »

lentyaj писал(а):на префилле 1500 токенов промпта обрабатываются примерно за 0.8 сек
это как раз говорит что у тебя всё ок с префиллом, под 1900 ток/сек препроцессинг для 3090 нормально. Если бы FA не работал, на длинном контексте просадка по памяти и скорости была бы заметнее. Замерь на 16-20к контекста, вот там разница вылезает
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
heckman
Сообщения: 62
Зарегистрирован: 12 май 2026, 19:39

Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Сообщение heckman »

@envoy69, 30 ток/сек это медленно лол. У меня на 4090 та же модель под 50 идёт
👍2 ❤️1 🔥1 😄 🤔
Аватара пользователя
qemu_user
Сообщения: 2
Зарегистрирован: 15 май 2026, 18:01

Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Сообщение qemu_user »

@anton_k8s, @DDR5enjoyer ну так 4090 это другая карта и память быстрее на треть почти, что ты сравниваешь. Человек спросил про 3090, на ней 28-30 это потолок для Q4 32B и есть. Тут вопрос не как разогнаться а правильно ли он замеряет
👍 ❤️1 🔥2 😄1 🤔
Аватара пользователя
krayzie
Сообщения: 28
Зарегистрирован: 12 май 2026, 14:46

Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Сообщение krayzie »

✔ Лучший ответ — сформирован автоматически
Развёрнуто отвечу раз тема живая. На 3090 под Qwen3 32B Q4_K_M реальный потолок генерации это память, а не вычисления. Карта даёт 936 гб/с, модель в Q4 весит примерно 19-20гб, плюс kv cache. На каждый токен надо прогнать веса через шину, отсюда чисто теоретический предел около 45-47 ток/сек если бы шина была занята только этим. На практике теряешь на kv cache, на сэмплинге, на питоновской обвязке если через сервер ходишь. 28-30 на голом llama.cpp с FA это здоровая цифра. Чтобы выжать больше: 1) бери Q4_K_S или даже IQ4_XS, они чуть меньше весят и memory bound задача ускоряется, у меня IQ4_XS дал +4 ток/сек при почти той же якобы перплексии. 2) контекст не раздувай без нужды, kv cache ест ту же память и шину. 3) если карта зимой холодная боост держится дольше, летом в душной комнате она троттлит и ты теряешь 10 процентов молча. Проверь hwinfo на удержание частоты под нагрузкой, у многих именно тут собака зарыта.
👍 ❤️ 🔥1 😄 🤔1
Аватара пользователя
timur12
Сообщения: 30
Зарегистрирован: 13 май 2026, 01:35

Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Сообщение timur12 »

вот про троттлинг плюсую, у меня летом без доп вентилятора на боковую стенку 3090 сбрасывала с 1900 до 1650 мгц и токены проседали, думал модель виновата а это просто горячо
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
jpearce
Сообщения: 47
Зарегистрирован: 11 май 2026, 23:34

Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Сообщение jpearce »

krayzie писал(а):бери Q4_K_S или даже IQ4_XS, они чуть меньше весят и memory bound задача ускоряется
тут аккуратнее, IQ кванты считаются медленнее на старых архитектурах потому что там сложнее распаковка. На 3090 (Ampere) IQ4_XS иногда наоборот медленнее K-квантов несмотря на меньший размер, надо мерить именно на своей карте а не верить что меньше=быстрее. У меня на 3090 IQ4_XS дал минус 2 ток/сек против Q4_K_M, обратный эффект
👍2 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость