Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

scala87 · Сообщение **scala87** » 30 май 2026, 10:29

Сколько у вас токенов в секунду на одной 3090 24гб с Qwen2.5 32B Q4_K_M через llama.cpp? У меня выходит 28-30 t/s на генерации при пустом контексте, но как только набивается 8-10к контекста падает до 18-20. Промпт процессинг порядка 900 t/s. Сборка свежая, b4400 примерно, CUDA 12.4, флаги -ngl 99 -fa. Хочу понять это норма или я где то проседаю и можно выжать больше.

regex4 · Сообщение **regex4** » 30 май 2026, 12:57

30 t/s это вполне ок для Q4_K_M на 3090. У меня примерно так же. Падение с контекстом нормальное, ты же kv кэш считаешь. Включи -fa (flash attention) если ещё нет, и кэш в q8 переведи, --cache-type-k q8_0 --cache-type-v q8_0, памяти меньше жрёт и почти без потери качества.

kingcnut · Сообщение **kingcnut** » 30 май 2026, 15:33

а батч какой? -b и -ub попробуй покрутить. на промпт процессинг сильно влияет

heckman · Сообщение **heckman** » 30 май 2026, 18:08

regex4 писал(а):кэш в q8 переведи, --cache-type-k q8_0 --cache-type-v q8_0, памяти меньше жрёт и почти без потери качества

с q8 кэшем на длинном контексте начинаются глюки иногда, у меня на 20к+ модель тупеть начинала заметно. на коротких ок, на длинных лучше fp16 оставить если влезает. для 32B на 24гб скорее всего влезет если контекст не 32к гнать.

rdnckavn · Сообщение **rdnckavn** » 30 май 2026, 20:55

подниму вопрос, а на чем вы все это гоняете под виндой или линукс? у меня под wsl2 чета медленнее чем нативно репортят

arch22 · Сообщение **arch22** » 30 май 2026, 22:27

@Vortex под голым линуксом всегда быстрее, wsl2 это прослойка плюс память шарится криво. разница процентов 10-15 бывает. но если тебе удобнее винда то 25 вместо 30 не трагедия.

по теме ОПа: 28-30 это потолок для 3090 на этой модели в Q4, ты уперся в memory bandwidth а не в компьют. 3090 это ~936 GB/s, 32B в Q4 это ~19-20гб весов, делишь и получаешь теоретический максимум около 45-47 t/s, реально с оверхедом 30 это нормально. больше не выжмешь без смены кванта или карты. хочешь быстрее, бери Q3 но качество просядет, или ставь вторую 3090 и спли по слоям, тогда контекст разнесешь и просадка будет меньше.

guardia · Сообщение **guardia** » 31 май 2026, 00:51

серьезно? memory bandwidth bound на одной карте давно известная вещь, чел заново велосипед изобрел. но расчет норм, +

svelteandy · Сообщение **svelteandy** » 31 май 2026, 05:49

вот за такие расчеты и сижу на форуме, спасибо. думал у меня руки кривые а оказывается физика

Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

Re: Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

Re: Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

Re: Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

Re: Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

Re: Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

Re: Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

Re: Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4

Кто сейчас на конференции