Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?
Рейтинг: 53.8% · 52 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- svetlana_js
- Сообщения: 25
- Зарегистрирован: Пн май 11, 2026 2:56 pm
Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?
Взял б/у 3090 на 24 гига специально под локальный инференс. Хочу гонять Qwen2.5 32B, но не уверен, что влезет в VRAM без жёсткой потери качества. Какую квантизацию реально брать — Q4_K_M ещё нормально или уже мыло? И сколько контекста останется при такой модели?
Кто реально запускал 32B на одной 3090 — какие token/s в llama.cpp/vLLM и не упирается ли в OOM на длинном контексте? Или зря потратился и надо было сразу смотреть в сторону двух карт?
Кто реально запускал 32B на одной 3090 — какие token/s в llama.cpp/vLLM и не упирается ли в OOM на длинном контексте? Или зря потратился и надо было сразу смотреть в сторону двух карт?
✔ Лучший ответ выбран автором темы — mark9640
KV в Q8 практически не заметно по качеству, экономит прилично. Я даже Q4 кэш гонял на больших контекстах - на суммаризации норм, на коде уже начинает тупить. Так что Q8 кэш - золотая середина.
✔ Лучший ответ сформирован автоматически — omegaai1991
vLLM на одиночной 3090 для 32B смысла мало — vLLM оптимизирован под батчевый инференс и хорошо работает когда много параллельных запросов. Для локального одиночного использования llama.cpp или Ollama (который под капотом llama.cpp) дают сопоставимую или лучшую скорость при меньшем потреблении памяти. Если планируешь серверный режим с несколькими пользователями — тогда да, смотри на vLLM, но тогда…
- nullnova8524
- Сообщения: 4
- Зарегистрирован: Ср май 13, 2026 11:12 am
- kira_api82
- Сообщения: 29
- Зарегистрирован: Вт май 12, 2026 8:49 am
- nullcore2015
- Сообщения: 4
- Зарегистрирован: Пн май 11, 2026 6:42 pm
Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?
Qwen2.5 32B в Q4_K_M весит примерно 19-20 ГБ — в 24 ГБ VRAM влезает, но впритык. В llama.cpp на одной 3090 получается около 18-22 tok/s на генерацию при контексте до 8k. Как только контекст растёт к 16k, KV-кэш начинает давить и можно словить OOM. Запускай с флагом --n-gpu-layers 99 --ctx-size 8192 для начала, потом смотри на nvidia-smi — если VRAM остаётся хотя бы 1-1.5 ГБ свободным, можно поднимать контекст до 12k.
Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?
Q4_K_M vs Q5_K_M на 32B — на одной 3090 Q4_K_M является лучшим компромиссом: Q5_K_M уже около 22-23 ГБ и при контексте больше 4k начнётся выгрузка на CPU, что убьёт скорость до 3-5 tok/s. Качество Q4_K_M на моделях 32B+ деградирует заметно меньше, чем на 7B, потому что больше параметров компенсируют потери квантизации. IQ4_XS как вариант — чуть меньше весит при похожем качестве, стоит попробовать.
- omegaai1991
- Сообщения: 21
- Зарегистрирован: Вт май 12, 2026 9:35 pm
Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?
✔ Лучший ответ — сформирован автоматически
vLLM на одиночной 3090 для 32B смысла мало — vLLM оптимизирован под батчевый инференс и хорошо работает когда много параллельных запросов. Для локального одиночного использования llama.cpp или Ollama (который под капотом llama.cpp) дают сопоставимую или лучшую скорость при меньшем потреблении памяти. Если планируешь серверный режим с несколькими пользователями — тогда да, смотри на vLLM, но тогда и 3090 одна будет узким местом.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
Похожие запросы:
как запустить llama локальноqwen vs llama что лучшекак запустить deepseek локальноmistral для локального запуска отзывы
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость