Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании

akiya · Сообщение **akiya** » 19 май 2026, 12:48

Гоняю Qwen2.5 32B в Q4_K_M на одной 3090, выдает примерно 28-30 t/s на генерации при пустом контексте, и проседает до 18 когда забиваю контекст под 16к. Это нормальные цифры или у меня что-то недокручено в сборке llama.cpp? Билдил с CUDA, flash attention включал через -fa. Хочется понять есть ли запас или это потолок карты.

davidwor · Сообщение **davidwor** » 19 май 2026, 17:43

цифры адекватные. на 3090 32B Q4 как раз в районе 30 t/s и живет, ты в память впритык влезаешь поэтому и нормально. потолок памяти, не вычислений.

barbs · Сообщение **barbs** » 19 май 2026, 18:32

У меня та же карта но Q4_K_M на 32B дает 33-35 стабильно. Проверь что слои реально все на гпу ушли. В логах смотри offloaded 65/65 layers. Если хоть пара слоев на цпу осталась, скорость падает сразу. И -fa точно помогает на больших контекстах, без него на 16к у меня было 14 t/s, с ним 19.

elixirlover · Сообщение **elixirlover** » 19 май 2026, 22:27

akiya писал(а):проседает до 18 когда забиваю контекст под 16к

это и есть нормальное поведение, генерация замедляется потому что аттеншн считается по всему кв-кэшу. чтобы меньше проседало, квантуй сам кэш, поставь --cache-type-k q8_0 и --cache-type-v q8_0. у меня после этого на 24к контексте потеря скорости стала процентов 15 вместо 40, и качество на глаз не упало.

async2025 · Сообщение **async2025** » 20 май 2026, 02:27

а смысл локально 32B гонять когда дипсик по апи копейки стоит

olgerd · Сообщение **olgerd** » 20 май 2026, 06:47

@Ferrumcore затем что не у всех данные можно в чужое апи сливать, у меня под NDA проекты, какое апи. локально или никак.

kube_fan · Сообщение **kube_fan** » 20 май 2026, 10:14

async2025 писал(а):а смысл локально 32B гонять когда дипсик по апи копейки стоит

копейки до первого блокировки оплаты или таймаута на их стороне. плюс приватность. у меня на работе вообще инет в сегмент закрыт, там только локалка и работает. так что смысл есть, просто он не у тебя.

Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании

Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании

Re: Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании

Re: Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании

Re: Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании

Re: Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании

Re: Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании

Re: Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании

Кто сейчас на конференции