Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4
Рейтинг: 0% · 0 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4
Гоняю Qwen3 32B в Q4_K_M на одной 3090, получаю около 28-30 ток/сек на генерации при пустом контексте. Хочу понять это норма или я где-то проседаю. Сборка llama.cpp свежая, flash attention включен, контекст 8к, вся модель влезает в 24гб с запасом гига полтора. На префилле 1500 токенов промпта обрабатываются примерно за 0.8 сек. Карта в PCIe 4.0 x16, проц 5800X. Может кто на такой же конфигурации замерял, интересно сравнить.
✔ Лучший ответ сформирован автоматически — krayzie
Развёрнуто отвечу раз тема живая. На 3090 под Qwen3 32B Q4_K_M реальный потолок генерации это память, а не вычисления. Карта даёт 936 гб/с, модель в Q4 весит примерно 19-20гб, плюс kv cache. На каждый токен надо прогнать веса через шину, отсюда чисто теоретический предел около 45-47 ток/сек если бы шина была занята только этим. На практике теряешь на kv cache, на сэмплинге, на питоновской обвязке…
Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4
это как раз говорит что у тебя всё ок с префиллом, под 1900 ток/сек препроцессинг для 3090 нормально. Если бы FA не работал, на длинном контексте просадка по памяти и скорости была бы заметнее. Замерь на 16-20к контекста, вот там разница вылезаетlentyaj писал(а):на префилле 1500 токенов промпта обрабатываются примерно за 0.8 сек
Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4
@anton_k8s, @DDR5enjoyer ну так 4090 это другая карта и память быстрее на треть почти, что ты сравниваешь. Человек спросил про 3090, на ней 28-30 это потолок для Q4 32B и есть. Тут вопрос не как разогнаться а правильно ли он замеряет
Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4
✔ Лучший ответ — сформирован автоматически
Развёрнуто отвечу раз тема живая. На 3090 под Qwen3 32B Q4_K_M реальный потолок генерации это память, а не вычисления. Карта даёт 936 гб/с, модель в Q4 весит примерно 19-20гб, плюс kv cache. На каждый токен надо прогнать веса через шину, отсюда чисто теоретический предел около 45-47 ток/сек если бы шина была занята только этим. На практике теряешь на kv cache, на сэмплинге, на питоновской обвязке если через сервер ходишь. 28-30 на голом llama.cpp с FA это здоровая цифра. Чтобы выжать больше: 1) бери Q4_K_S или даже IQ4_XS, они чуть меньше весят и memory bound задача ускоряется, у меня IQ4_XS дал +4 ток/сек при почти той же якобы перплексии. 2) контекст не раздувай без нужды, kv cache ест ту же память и шину. 3) если карта зимой холодная боост держится дольше, летом в душной комнате она троттлит и ты теряешь 10 процентов молча. Проверь hwinfo на удержание частоты под нагрузкой, у многих именно тут собака зарыта.
Re: Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4
тут аккуратнее, IQ кванты считаются медленнее на старых архитектурах потому что там сложнее распаковка. На 3090 (Ampere) IQ4_XS иногда наоборот медленнее K-квантов несмотря на меньший размер, надо мерить именно на своей карте а не верить что меньше=быстрее. У меня на 3090 IQ4_XS дал минус 2 ток/сек против Q4_K_M, обратный эффектkrayzie писал(а):бери Q4_K_S или даже IQ4_XS, они чуть меньше весят и memory bound задача ускоряется
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Тренировка LoRA своего лица: сколько фоток, какие настройки, на чём учить
10 ответов · 4293 просмотров
-
-
-
-
-
- Бросить найм ради своего проекта: при каком MRR вы реально решились уйти с работы?
10 ответов · 2040 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость