Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

Рейтинг: 20.7% · 1 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
scala87
Сообщения: 6
Зарегистрирован: 25 май 2026, 12:13

Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

Сообщение scala87 »

Сколько у вас токенов в секунду на одной 3090 24гб с Qwen2.5 32B Q4_K_M через llama.cpp? У меня выходит 28-30 t/s на генерации при пустом контексте, но как только набивается 8-10к контекста падает до 18-20. Промпт процессинг порядка 900 t/s. Сборка свежая, b4400 примерно, CUDA 12.4, флаги -ngl 99 -fa. Хочу понять это норма или я где то проседаю и можно выжать больше.
👍1 ❤️1 🔥 😄1 🤔
✔ Лучший ответ сформирован автоматически — arch22
@Vortex под голым линуксом всегда быстрее, wsl2 это прослойка плюс память шарится криво. разница процентов 10-15 бывает. но если тебе удобнее винда то 25 вместо 30 не трагедия. по теме ОПа: 28-30 это потолок для 3090 на этой модели в Q4, ты уперся в memory bandwidth а не в компьют. 3090 это ~936 GB/s, 32B в Q4 это ~19-20гб весов, делишь и получаешь теоретический максимум около 45-47 t/s, реально …
Перейти к ответу →
Аватара пользователя
regex4
Сообщения: 25
Зарегистрирован: 19 май 2026, 06:24

Re: Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

Сообщение regex4 »

30 t/s это вполне ок для Q4_K_M на 3090. У меня примерно так же. Падение с контекстом нормальное, ты же kv кэш считаешь. Включи -fa (flash attention) если ещё нет, и кэш в q8 переведи, --cache-type-k q8_0 --cache-type-v q8_0, памяти меньше жрёт и почти без потери качества.
👍3 ❤️ 🔥 😄1 🤔
Аватара пользователя
kingcnut
Сообщения: 33
Зарегистрирован: 12 май 2026, 07:12

Re: Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

Сообщение kingcnut »

а батч какой? -b и -ub попробуй покрутить. на промпт процессинг сильно влияет
👍 ❤️2 🔥1 😄 🤔
Аватара пользователя
heckman
Сообщения: 62
Зарегистрирован: 12 май 2026, 19:39

Re: Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

Сообщение heckman »

regex4 писал(а):кэш в q8 переведи, --cache-type-k q8_0 --cache-type-v q8_0, памяти меньше жрёт и почти без потери качества
с q8 кэшем на длинном контексте начинаются глюки иногда, у меня на 20к+ модель тупеть начинала заметно. на коротких ок, на длинных лучше fp16 оставить если влезает. для 32B на 24гб скорее всего влезет если контекст не 32к гнать.
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
rdnckavn
Сообщения: 23
Зарегистрирован: 13 май 2026, 21:19

Re: Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

Сообщение rdnckavn »

подниму вопрос, а на чем вы все это гоняете под виндой или линукс? у меня под wsl2 чета медленнее чем нативно репортят
👍 ❤️ 🔥3 😄1 🤔
Аватара пользователя
arch22
Сообщения: 2
Зарегистрирован: 21 май 2026, 16:48

Re: Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

Сообщение arch22 »

✔ Лучший ответ — сформирован автоматически
@Vortex под голым линуксом всегда быстрее, wsl2 это прослойка плюс память шарится криво. разница процентов 10-15 бывает. но если тебе удобнее винда то 25 вместо 30 не трагедия.

по теме ОПа: 28-30 это потолок для 3090 на этой модели в Q4, ты уперся в memory bandwidth а не в компьют. 3090 это ~936 GB/s, 32B в Q4 это ~19-20гб весов, делишь и получаешь теоретический максимум около 45-47 t/s, реально с оверхедом 30 это нормально. больше не выжмешь без смены кванта или карты. хочешь быстрее, бери Q3 но качество просядет, или ставь вторую 3090 и спли по слоям, тогда контекст разнесешь и просадка будет меньше.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
guardia
Сообщения: 49
Зарегистрирован: 11 май 2026, 14:59

Re: Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

Сообщение guardia »

серьезно? memory bandwidth bound на одной карте давно известная вещь, чел заново велосипед изобрел. но расчет норм, +
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
svelteandy
Сообщения: 24
Зарегистрирован: 16 май 2026, 03:53

Re: Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

Сообщение svelteandy »

вот за такие расчеты и сижу на форуме, спасибо. думал у меня руки кривые а оказывается физика
👍 ❤️ 🔥1 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость