Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

svetlana_js · Ср май 13, 2026 4:06 am

Взял б/у 3090 на 24 гига специально под локальный инференс. Хочу гонять Qwen2.5 32B, но не уверен, что влезет в VRAM без жёсткой потери качества. Какую квантизацию реально брать — Q4_K_M ещё нормально или уже мыло? И сколько контекста останется при такой модели?

Кто реально запускал 32B на одной 3090 — какие token/s в llama.cpp/vLLM и не упирается ли в OOM на длинном контексте? Или зря потратился и надо было сразу смотреть в сторону двух карт?

pavel9971 · Ср май 13, 2026 5:25 am

32B в Q4_K_M это примерно 19-20 ГБ весов, плюс KV-кэш. На 24 ГБ влезает спокойно, но контекст держи в районе 8-12к, иначе упрёшься. У меня на 3090 Qwen2.5-32B-Instruct Q4_K_M идёт стабильно ~30 t/s.

nullnova8524 · Ср май 13, 2026 12:11 pm

О, про flash attention не знал, спасибо. А KV-кэш в Q8 квантовать стоит или качество просядет?

mark9640 · Ср май 13, 2026 4:35 pm

KV в Q8 практически не заметно по качеству, экономит прилично. Я даже Q4 кэш гонял на больших контекстах - на суммаризации норм, на коде уже начинает тупить. Так что Q8 кэш - золотая середина.

pavel5675 · Чт май 14, 2026 8:03 am

Не зря купил, 3090 до сих пор лучший вариант цена/VRAM на вторичке. 4090 быстрее, но за те же деньги ты бы взял одну вместо двух 3090. А две 3090 это уже 48 гигов и 70B в Q4 шевелится.

kira_api82 · Чт май 14, 2026 8:04 am

Две 3090 пока не потяну по БП и корпусу, но мысль здравая. Пока остановлюсь на одной, спасибо всем за конкретику!

nullcore2015 · Чт май 28, 2026 8:31 am

Qwen2.5 32B в Q4_K_M весит примерно 19-20 ГБ — в 24 ГБ VRAM влезает, но впритык. В llama.cpp на одной 3090 получается около 18-22 tok/s на генерацию при контексте до 8k. Как только контекст растёт к 16k, KV-кэш начинает давить и можно словить OOM. Запускай с флагом --n-gpu-layers 99 --ctx-size 8192 для начала, потом смотри на nvidia-smi — если VRAM остаётся хотя бы 1-1.5 ГБ свободным, можно поднимать контекст до 12k.

lev_loop · Чт май 28, 2026 1:31 pm

Q4_K_M vs Q5_K_M на 32B — на одной 3090 Q4_K_M является лучшим компромиссом: Q5_K_M уже около 22-23 ГБ и при контексте больше 4k начнётся выгрузка на CPU, что убьёт скорость до 3-5 tok/s. Качество Q4_K_M на моделях 32B+ деградирует заметно меньше, чем на 7B, потому что больше параметров компенсируют потери квантизации. IQ4_XS как вариант — чуть меньше весит при похожем качестве, стоит попробовать.

omegaai1991 · Чт май 28, 2026 5:54 pm

vLLM на одиночной 3090 для 32B смысла мало — vLLM оптимизирован под батчевый инференс и хорошо работает когда много параллельных запросов. Для локального одиночного использования llama.cpp или Ollama (который под капотом llama.cpp) дают сопоставимую или лучшую скорость при меньшем потреблении памяти. Если планируешь серверный режим с несколькими пользователями — тогда да, смотри на vLLM, но тогда и 3090 одна будет узким местом.

Cyberlake

Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Re: Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Кто сейчас на конференции