7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк

ivan21 · Сообщение **ivan21** » 10 июн 2026, 11:58

Собрал вчера llama.cpp из исходников, гоняю Qwen3-32B Q4_K_M через llama-server. Получаю 7 t/s генерации. По всем тестам из интернета на 3090 должно быть 25-30.

Конфиг: i5-12400f, 32gb ddr4, 3090 palit, ubuntu 24.04, драйвер свежий. Запуск: llama-server -m model.gguf -c 8192 -ngl 99 -fa on. При этом nvidia-smi показывает занятыми какие-то 230 MiB и утилизацию около нуля, зато в htop все 12 потоков в полке и RAM забита под завязку. Куда копать?

stachhunt · Сообщение **stachhunt** » 10 июн 2026, 16:20

ты собрал без куды, гений. nvidia-smi пустой, проц в полке, что тут копать. cmake -B build -DGGML_CUDA=ON, потом cmake -build build -j. и в логе старта llama-server смотри строку про найденные девайсы, там должна быть твоя 3090, а у тебя сейчас наверняка no usable GPU и -ngl молча игнорится

fletchl · Сообщение **fletchl** » 10 июн 2026, 16:30

классика жанра. каждый второй так делает, потому что в ридми этот флаг надо еще найти

markio · Сообщение **markio** » 10 июн 2026, 19:52

@fletchl, Пересобрал с GGML_CUDA=ON, получил 26.5 t/s. Позор мне, спасибо. Удивило что без куды оно вообще не ругается на -ngl, просто тихо жует процом.

Pmannn · Сообщение **Pmannn** » 10 июн 2026, 21:01

@OP раз уж завелось, добивка. 32B Q4_K_M с 8к контекста сидит в 24гб впритык. Захочешь 16к, ставь -cache-type-k q8_0 -cache-type-v q8_0, на качестве не скажется, а кэш ужмется вдвое. И -t 6 поставь по числу физических ядер, дефолт иногда тупит.

Macrano · Сообщение **Macrano** » 10 июн 2026, 21:53

@markio, а вот в ollama такого бы не случилось хы. сама бы скачала, сама бы запустила

bruce01 · Сообщение **bruce01** » 10 июн 2026, 22:25

ну да, и контекст бы молча обрезала до 4к, проходили. зато 7 t/s это между прочим скорость вдумчивого чтения, для чата за глаза, не понимаю эту гонку за циферками. вот обработка промпта другое дело

7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк

7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк

Re: 7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк

Re: 7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк

Re: 7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк

Re: 7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк

Re: 7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк

Re: 7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк

Кто сейчас на конференции