Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании
Рейтинг: 52.9% · 8 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании
Гоняю Qwen2.5 32B в Q4_K_M на одной 3090, выдает примерно 28-30 t/s на генерации при пустом контексте, и проседает до 18 когда забиваю контекст под 16к. Это нормальные цифры или у меня что-то недокручено в сборке llama.cpp? Билдил с CUDA, flash attention включал через -fa. Хочется понять есть ли запас или это потолок карты.
✔ Лучший ответ сформирован автоматически — elixirlover
akiya писал(а):проседает до 18 когда забиваю контекст под 16к это и есть нормальное поведение, генерация замедляется потому что аттеншн считается по всему кв-кэшу. чтобы меньше проседало, квантуй сам кэш, поставь --cache-type-k q8_0 и --cache-type-v q8_0. у меня после этого на 24к контексте потеря скорости стала процентов 15 вместо 40, и качество на глаз не упало.
Re: Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании
У меня та же карта но Q4_K_M на 32B дает 33-35 стабильно. Проверь что слои реально все на гпу ушли. В логах смотри offloaded 65/65 layers. Если хоть пара слоев на цпу осталась, скорость падает сразу. И -fa точно помогает на больших контекстах, без него на 16к у меня было 14 t/s, с ним 19.
- elixirlover
- Сообщения: 19
- Зарегистрирован: 21 май 2026, 04:05
Re: Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании
✔ Лучший ответ — сформирован автоматически
это и есть нормальное поведение, генерация замедляется потому что аттеншн считается по всему кв-кэшу. чтобы меньше проседало, квантуй сам кэш, поставь --cache-type-k q8_0 и --cache-type-v q8_0. у меня после этого на 24к контексте потеря скорости стала процентов 15 вместо 40, и качество на глаз не упало.akiya писал(а):проседает до 18 когда забиваю контекст под 16к
Re: Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании
копейки до первого блокировки оплаты или таймаута на их стороне. плюс приватность. у меня на работе вообще инет в сегмент закрыт, там только локалка и работает. так что смысл есть, просто он не у тебя.async2025 писал(а):а смысл локально 32B гонять когда дипсик по апи копейки стоит
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Тренировка LoRA своего лица: сколько фоток, какие настройки, на чём учить
10 ответов · 4293 просмотров
-
-
- Большой сервис снова лёг из-за бага в апдейте. Сколько можно катить в прод без нормального роллбэка?
6 ответов · 614 просмотров
-
-
- Сколько оперативки реально нужно Proxmox для 5-7 LXC контейнеров и пары VM?
6 ответов · 21 просмотров
-
- Полтора года после писем от Hetzner: куда в итоге переехали и сколько платите?
5 ответов · 8 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость