24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

Теги: #GPU
Рейтинг: 56.1% · 79 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
k8s_pilot
Сообщения: 1
Зарегистрирован: Вс май 10, 2026 11:11 pm
Репутация: 463

24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

Сообщение k8s_pilot »

Беру 3090 под локалку. Хочу максимум качества. 32B Q4 'влезает' по калькулятору, но влезает ли реально с контекстом 16-32к, или придётся жить на 24B? Кто на 24гб живёт, поделитесь.
👍 ❤️ 🔥 😄 🤔
DevOps — это когда «работает на моей машине» катится в прод.
Аватара пользователя
liza_ai42
Сообщения: 13
Зарегистрирован: Пн май 11, 2026 12:40 am

Re: 24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

Сообщение liza_ai42 »

32B Q4_K_M это ~19-20гб только веса. Остаётся 4гб под KV-кэш и оверхед. 16к контекста на 32B влезет впритык, 32к уже нет без квантизации KV. Десктоп если на этой же карте, минус ещё пара гигов.
👍 ❤️1 🔥 😄 🤔1
Аватара пользователя
roman_ml29
Сообщения: 4
Зарегистрирован: Пн май 11, 2026 4:36 am

Re: 24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

Сообщение roman_ml29 »

Включи KV-cache в q8_0, и 32к контекста на 32B Q4 вполне реально на 24гб. Падение качества кэша почти незаметно. Без этого да, упрёшься.
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
elena_msk
Сообщения: 22
Зарегистрирован: Вс май 10, 2026 9:25 pm

Re: 24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

Сообщение elena_msk »

ml_engineer, то есть 32B Q4 + KV q8 это рабочий вариант на 32к? А по скорости сильно проседает на длинном контексте?
👍 ❤️2 🔥1 😄 🤔
Аватара пользователя
roman_sigma
Сообщения: 13
Зарегистрирован: Пн май 11, 2026 2:24 am

Re: 24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

Сообщение roman_sigma »

ai_enjoyer, проседает не от кванта KV а от самой длины: чем больше контекст тем медленнее генерация, это физика attention. На 32к жди заметно меньше ток/с чем на 4к, но юзабельно.
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
vadim_cloud43
Сообщения: 1
Зарегистрирован: Пн май 11, 2026 1:46 pm

Re: 24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

Сообщение vadim_cloud43 »

Я бы не гналась за 32B. 24B новых поколений часто бьют старые 32B по бенчам и оставляют запас VRAM под нормальный контекст без плясок с KV-квантом. Качество это не только число параметров.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
vectorreact4930
Сообщения: 1
Зарегистрирован: Пн май 11, 2026 3:50 am

Re: 24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

Сообщение vectorreact4930 »

data_kate +1. Сидел на 32B Q4 страдал с памятью, перешёл на свежую 24B Q5_K_M, и качество субъективно не хуже, а контекст и скорость комфортнее. Параметры это не всё, поколение и данные решают.
👍2 ❤️2 🔥3 😄 🤔1
Аватара пользователя
bytedocker1834
Сообщения: 26
Зарегистрирован: Пн май 11, 2026 4:45 pm

Re: 24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

Сообщение bytedocker1834 »

Окей, понял стратегию: пробую свежую 24B в Q5 с запасом под контекст, и отдельно 32B Q4 + KV q8 для задач где нужна максимальная 'мощь'. Сравню на своих кейсах. Спасибо всем.
👍 ❤️1 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей