Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4
Рейтинг: 20.7% · 1 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4
Сколько у вас токенов в секунду на одной 3090 24гб с Qwen2.5 32B Q4_K_M через llama.cpp? У меня выходит 28-30 t/s на генерации при пустом контексте, но как только набивается 8-10к контекста падает до 18-20. Промпт процессинг порядка 900 t/s. Сборка свежая, b4400 примерно, CUDA 12.4, флаги -ngl 99 -fa. Хочу понять это норма или я где то проседаю и можно выжать больше.
✔ Лучший ответ сформирован автоматически — arch22
@Vortex под голым линуксом всегда быстрее, wsl2 это прослойка плюс память шарится криво. разница процентов 10-15 бывает. но если тебе удобнее винда то 25 вместо 30 не трагедия. по теме ОПа: 28-30 это потолок для 3090 на этой модели в Q4, ты уперся в memory bandwidth а не в компьют. 3090 это ~936 GB/s, 32B в Q4 это ~19-20гб весов, делишь и получаешь теоретический максимум около 45-47 t/s, реально …
Re: Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4
30 t/s это вполне ок для Q4_K_M на 3090. У меня примерно так же. Падение с контекстом нормальное, ты же kv кэш считаешь. Включи -fa (flash attention) если ещё нет, и кэш в q8 переведи, --cache-type-k q8_0 --cache-type-v q8_0, памяти меньше жрёт и почти без потери качества.
Re: Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4
с q8 кэшем на длинном контексте начинаются глюки иногда, у меня на 20к+ модель тупеть начинала заметно. на коротких ок, на длинных лучше fp16 оставить если влезает. для 32B на 24гб скорее всего влезет если контекст не 32к гнать.regex4 писал(а):кэш в q8 переведи, --cache-type-k q8_0 --cache-type-v q8_0, памяти меньше жрёт и почти без потери качества
Re: Сколько токенов в секунду реально на 3090 в llama.cpp с Qwen2.5 32B Q4
✔ Лучший ответ — сформирован автоматически
@Vortex под голым линуксом всегда быстрее, wsl2 это прослойка плюс память шарится криво. разница процентов 10-15 бывает. но если тебе удобнее винда то 25 вместо 30 не трагедия.
по теме ОПа: 28-30 это потолок для 3090 на этой модели в Q4, ты уперся в memory bandwidth а не в компьют. 3090 это ~936 GB/s, 32B в Q4 это ~19-20гб весов, делишь и получаешь теоретический максимум около 45-47 t/s, реально с оверхедом 30 это нормально. больше не выжмешь без смены кванта или карты. хочешь быстрее, бери Q3 но качество просядет, или ставь вторую 3090 и спли по слоям, тогда контекст разнесешь и просадка будет меньше.
по теме ОПа: 28-30 это потолок для 3090 на этой модели в Q4, ты уперся в memory bandwidth а не в компьют. 3090 это ~936 GB/s, 32B в Q4 это ~19-20гб весов, делишь и получаешь теоретический максимум около 45-47 t/s, реально с оверхедом 30 это нормально. больше не выжмешь без смены кванта или карты. хочешь быстрее, бери Q3 но качество просядет, или ставь вторую 3090 и спли по слоям, тогда контекст разнесешь и просадка будет меньше.
- svelteandy
- Сообщения: 24
- Зарегистрирован: 16 май 2026, 03:53
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Тренировка LoRA своего лица: сколько фоток, какие настройки, на чём учить
10 ответов · 4293 просмотров
-
-
-
-
-
- Бросить найм ради своего проекта: при каком MRR вы реально решились уйти с работы?
10 ответов · 2040 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость