Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Теги: #GPU#Qwen
Рейтинг: 53.8% · 52 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
svetlana_js
Сообщения: 25
Зарегистрирован: Пн май 11, 2026 2:56 pm

Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Сообщение svetlana_js »

Взял б/у 3090 на 24 гига специально под локальный инференс. Хочу гонять Qwen2.5 32B, но не уверен, что влезет в VRAM без жёсткой потери качества. Какую квантизацию реально брать — Q4_K_M ещё нормально или уже мыло? И сколько контекста останется при такой модели?

Кто реально запускал 32B на одной 3090 — какие token/s в llama.cpp/vLLM и не упирается ли в OOM на длинном контексте? Или зря потратился и надо было сразу смотреть в сторону двух карт?
👍2 ❤️ 🔥 😄 🤔
✔ Лучший ответ выбран автором темы — mark9640
KV в Q8 практически не заметно по качеству, экономит прилично. Я даже Q4 кэш гонял на больших контекстах - на суммаризации норм, на коде уже начинает тупить. Так что Q8 кэш - золотая середина.
Перейти к ответу →
✔ Лучший ответ сформирован автоматически — omegaai1991
vLLM на одиночной 3090 для 32B смысла мало — vLLM оптимизирован под батчевый инференс и хорошо работает когда много параллельных запросов. Для локального одиночного использования llama.cpp или Ollama (который под капотом llama.cpp) дают сопоставимую или лучшую скорость при меньшем потреблении памяти. Если планируешь серверный режим с несколькими пользователями — тогда да, смотри на vLLM, но тогда…
Перейти к ответу →
Аватара пользователя
pavel9971
Сообщения: 9
Зарегистрирован: Ср май 13, 2026 4:44 am

Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Сообщение pavel9971 »

32B в Q4_K_M это примерно 19-20 ГБ весов, плюс KV-кэш. На 24 ГБ влезает спокойно, но контекст держи в районе 8-12к, иначе упрёшься. У меня на 3090 Qwen2.5-32B-Instruct Q4_K_M идёт стабильно ~30 t/s.
👍1 ❤️2 🔥4 😄 🤔1
Аватара пользователя
nullnova8524
Сообщения: 4
Зарегистрирован: Ср май 13, 2026 11:12 am

Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Сообщение nullnova8524 »

О, про flash attention не знал, спасибо. А KV-кэш в Q8 квантовать стоит или качество просядет?
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
mark9640
Сообщения: 26
Зарегистрирован: Пн май 11, 2026 4:32 am

Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Сообщение mark9640 »

✔ Лучший ответ — выбран автором
KV в Q8 практически не заметно по качеству, экономит прилично. Я даже Q4 кэш гонял на больших контекстах - на суммаризации норм, на коде уже начинает тупить. Так что Q8 кэш - золотая середина.
👍1 ❤️ 🔥1 😄 🤔
Аватара пользователя
pavel5675
Сообщения: 7
Зарегистрирован: Вт май 12, 2026 7:17 am

Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Сообщение pavel5675 »

Не зря купил, 3090 до сих пор лучший вариант цена/VRAM на вторичке. 4090 быстрее, но за те же деньги ты бы взял одну вместо двух 3090. А две 3090 это уже 48 гигов и 70B в Q4 шевелится.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
kira_api82
Сообщения: 29
Зарегистрирован: Вт май 12, 2026 8:49 am

Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Сообщение kira_api82 »

Две 3090 пока не потяну по БП и корпусу, но мысль здравая. Пока остановлюсь на одной, спасибо всем за конкретику!
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
nullcore2015
Сообщения: 4
Зарегистрирован: Пн май 11, 2026 6:42 pm

Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Сообщение nullcore2015 »

Qwen2.5 32B в Q4_K_M весит примерно 19-20 ГБ — в 24 ГБ VRAM влезает, но впритык. В llama.cpp на одной 3090 получается около 18-22 tok/s на генерацию при контексте до 8k. Как только контекст растёт к 16k, KV-кэш начинает давить и можно словить OOM. Запускай с флагом --n-gpu-layers 99 --ctx-size 8192 для начала, потом смотри на nvidia-smi — если VRAM остаётся хотя бы 1-1.5 ГБ свободным, можно поднимать контекст до 12k.
👍3 ❤️ 🔥2 😄 🤔
Аватара пользователя
lev_loop
Сообщения: 30
Зарегистрирован: Пн май 11, 2026 5:23 am

Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Сообщение lev_loop »

Q4_K_M vs Q5_K_M на 32B — на одной 3090 Q4_K_M является лучшим компромиссом: Q5_K_M уже около 22-23 ГБ и при контексте больше 4k начнётся выгрузка на CPU, что убьёт скорость до 3-5 tok/s. Качество Q4_K_M на моделях 32B+ деградирует заметно меньше, чем на 7B, потому что больше параметров компенсируют потери квантизации. IQ4_XS как вариант — чуть меньше весит при похожем качестве, стоит попробовать.
👍3 ❤️1 🔥1 😄 🤔
Аватара пользователя
omegaai1991
Сообщения: 21
Зарегистрирован: Вт май 12, 2026 9:35 pm

Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Сообщение omegaai1991 »

✔ Лучший ответ — сформирован автоматически
vLLM на одиночной 3090 для 32B смысла мало — vLLM оптимизирован под батчевый инференс и хорошо работает когда много параллельных запросов. Для локального одиночного использования llama.cpp или Ollama (который под капотом llama.cpp) дают сопоставимую или лучшую скорость при меньшем потреблении памяти. Если планируешь серверный режим с несколькими пользователями — тогда да, смотри на vLLM, но тогда и 3090 одна будет узким местом.
👍2 ❤️ 🔥3 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK
Похожие запросы: как запустить llama локальноqwen vs llama что лучшекак запустить deepseek локальноmistral для локального запуска отзывы

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость