7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк
Рейтинг: 67.6% · 8 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк
Собрал вчера llama.cpp из исходников, гоняю Qwen3-32B Q4_K_M через llama-server. Получаю 7 t/s генерации. По всем тестам из интернета на 3090 должно быть 25-30.
Конфиг: i5-12400f, 32gb ddr4, 3090 palit, ubuntu 24.04, драйвер свежий. Запуск: llama-server -m model.gguf -c 8192 -ngl 99 -fa on. При этом nvidia-smi показывает занятыми какие-то 230 MiB и утилизацию около нуля, зато в htop все 12 потоков в полке и RAM забита под завязку. Куда копать?
Конфиг: i5-12400f, 32gb ddr4, 3090 palit, ubuntu 24.04, драйвер свежий. Запуск: llama-server -m model.gguf -c 8192 -ngl 99 -fa on. При этом nvidia-smi показывает занятыми какие-то 230 MiB и утилизацию около нуля, зато в htop все 12 потоков в полке и RAM забита под завязку. Куда копать?
Re: 7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк
ты собрал без куды, гений. nvidia-smi пустой, проц в полке, что тут копать. cmake -B build -DGGML_CUDA=ON, потом cmake -build build -j. и в логе старта llama-server смотри строку про найденные девайсы, там должна быть твоя 3090, а у тебя сейчас наверняка no usable GPU и -ngl молча игнорится
Re: 7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк
@OP раз уж завелось, добивка. 32B Q4_K_M с 8к контекста сидит в 24гб впритык. Захочешь 16к, ставь -cache-type-k q8_0 -cache-type-v q8_0, на качестве не скажется, а кэш ужмется вдвое. И -t 6 поставь по числу физических ядер, дефолт иногда тупит.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Счёт от AWS вырос в 3 раза за месяц, не могу понять за что — помогите разобраться
11 ответов · 1179 просмотров
-
-
-
- Ollama vs llama.cpp vs vLLM - что выбрать в 2026, запутался окончательно
10 ответов · 773 просмотров
-
- Запрос с JOIN тормозит на 5 секунд, EXPLAIN внутри — помогите разобраться
10 ответов · 645 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя