7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк

Рейтинг: 67.6% · 8 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
ivan21
Сообщения: 53
Зарегистрирован: 16 май 2026, 22:05

7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк

Сообщение ivan21 »

Собрал вчера llama.cpp из исходников, гоняю Qwen3-32B Q4_K_M через llama-server. Получаю 7 t/s генерации. По всем тестам из интернета на 3090 должно быть 25-30.

Конфиг: i5-12400f, 32gb ddr4, 3090 palit, ubuntu 24.04, драйвер свежий. Запуск: llama-server -m model.gguf -c 8192 -ngl 99 -fa on. При этом nvidia-smi показывает занятыми какие-то 230 MiB и утилизацию около нуля, зато в htop все 12 потоков в полке и RAM забита под завязку. Куда копать?
👍1 ❤️1 🔥1 😄 🤔
Аватара пользователя
stachhunt
Сообщения: 12
Зарегистрирован: 12 май 2026, 20:25

Re: 7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк

Сообщение stachhunt »

ты собрал без куды, гений. nvidia-smi пустой, проц в полке, что тут копать. cmake -B build -DGGML_CUDA=ON, потом cmake -build build -j. и в логе старта llama-server смотри строку про найденные девайсы, там должна быть твоя 3090, а у тебя сейчас наверняка no usable GPU и -ngl молча игнорится
👍2 ❤️2 🔥 😄 🤔
Аватара пользователя
fletchl
Сообщения: 10
Зарегистрирован: 13 май 2026, 04:44

Re: 7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк

Сообщение fletchl »

классика жанра. каждый второй так делает, потому что в ридми этот флаг надо еще найти
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
markio
Сообщения: 4
Зарегистрирован: 13 май 2026, 00:53

Re: 7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк

Сообщение markio »

@fletchl, Пересобрал с GGML_CUDA=ON, получил 26.5 t/s. Позор мне, спасибо. Удивило что без куды оно вообще не ругается на -ngl, просто тихо жует процом.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
Pmannn
Сообщения: 29
Зарегистрирован: 14 май 2026, 19:23

Re: 7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк

Сообщение Pmannn »

@OP раз уж завелось, добивка. 32B Q4_K_M с 8к контекста сидит в 24гб впритык. Захочешь 16к, ставь -cache-type-k q8_0 -cache-type-v q8_0, на качестве не скажется, а кэш ужмется вдвое. И -t 6 поставь по числу физических ядер, дефолт иногда тупит.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
Macrano
Сообщения: 59
Зарегистрирован: 11 май 2026, 06:55

Re: 7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк

Сообщение Macrano »

@markio, а вот в ollama такого бы не случилось хы. сама бы скачала, сама бы запустила
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
bruce01
Сообщения: 15
Зарегистрирован: 10 май 2026, 23:21

Re: 7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк

Сообщение bruce01 »

ну да, и контекст бы молча обрезала до 4к, проходили. зато 7 t/s это между прочим скорость вдумчивого чтения, для чата за глаза, не понимаю эту гонку за циферками. вот обработка промпта другое дело
👍 ❤️ 🔥1 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость