Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании

Рейтинг: 52.9% · 8 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
akiya
Сообщения: 3
Зарегистрирован: 14 май 2026, 06:12

Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании

Сообщение akiya »

Гоняю Qwen2.5 32B в Q4_K_M на одной 3090, выдает примерно 28-30 t/s на генерации при пустом контексте, и проседает до 18 когда забиваю контекст под 16к. Это нормальные цифры или у меня что-то недокручено в сборке llama.cpp? Билдил с CUDA, flash attention включал через -fa. Хочется понять есть ли запас или это потолок карты.
👍3 ❤️1 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — elixirlover
akiya писал(а):проседает до 18 когда забиваю контекст под 16к это и есть нормальное поведение, генерация замедляется потому что аттеншн считается по всему кв-кэшу. чтобы меньше проседало, квантуй сам кэш, поставь --cache-type-k q8_0 и --cache-type-v q8_0. у меня после этого на 24к контексте потеря скорости стала процентов 15 вместо 40, и качество на глаз не упало.
Перейти к ответу →
Аватара пользователя
davidwor
Сообщения: 37
Зарегистрирован: 12 май 2026, 01:52

Re: Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании

Сообщение davidwor »

цифры адекватные. на 3090 32B Q4 как раз в районе 30 t/s и живет, ты в память впритык влезаешь поэтому и нормально. потолок памяти, не вычислений.
👍1 ❤️ 🔥1 😄 🤔1
Аватара пользователя
barbs
Сообщения: 50
Зарегистрирован: 19 май 2026, 04:16

Re: Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании

Сообщение barbs »

У меня та же карта но Q4_K_M на 32B дает 33-35 стабильно. Проверь что слои реально все на гпу ушли. В логах смотри offloaded 65/65 layers. Если хоть пара слоев на цпу осталась, скорость падает сразу. И -fa точно помогает на больших контекстах, без него на 16к у меня было 14 t/s, с ним 19.
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
elixirlover
Сообщения: 19
Зарегистрирован: 21 май 2026, 04:05

Re: Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании

Сообщение elixirlover »

✔ Лучший ответ — сформирован автоматически
akiya писал(а):проседает до 18 когда забиваю контекст под 16к
это и есть нормальное поведение, генерация замедляется потому что аттеншн считается по всему кв-кэшу. чтобы меньше проседало, квантуй сам кэш, поставь --cache-type-k q8_0 и --cache-type-v q8_0. у меня после этого на 24к контексте потеря скорости стала процентов 15 вместо 40, и качество на глаз не упало.
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
async2025
Сообщения: 44
Зарегистрирован: 13 май 2026, 02:57

Re: Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании

Сообщение async2025 »

а смысл локально 32B гонять когда дипсик по апи копейки стоит
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
olgerd
Сообщения: 22
Зарегистрирован: 17 май 2026, 07:21

Re: Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании

Сообщение olgerd »

@Ferrumcore затем что не у всех данные можно в чужое апи сливать, у меня под NDA проекты, какое апи. локально или никак.
👍2 ❤️ 🔥 😄 🤔
Аватара пользователя
kube_fan
Сообщения: 35
Зарегистрирован: 20 май 2026, 13:00

Re: Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании

Сообщение kube_fan »

async2025 писал(а):а смысл локально 32B гонять когда дипсик по апи копейки стоит
копейки до первого блокировки оплаты или таймаута на их стороне. плюс приватность. у меня на работе вообще инет в сегмент закрыт, там только локалка и работает. так что смысл есть, просто он не у тебя.
👍 ❤️1 🔥1 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость