24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

k8s_pilot · Пн май 11, 2026 12:49 am

Беру 3090 под локалку. Хочу максимум качества. 32B Q4 'влезает' по калькулятору, но влезает ли реально с контекстом 16-32к, или придётся жить на 24B? Кто на 24гб живёт, поделитесь.

liza_ai42 · Пн май 11, 2026 3:29 am

32B Q4_K_M это ~19-20гб только веса. Остаётся 4гб под KV-кэш и оверхед. 16к контекста на 32B влезет впритык, 32к уже нет без квантизации KV. Десктоп если на этой же карте, минус ещё пара гигов.

roman_ml29 · Пн май 11, 2026 5:37 am

Включи KV-cache в q8_0, и 32к контекста на 32B Q4 вполне реально на 24гб. Падение качества кэша почти незаметно. Без этого да, упрёшься.

elena_msk · Пн май 11, 2026 2:29 pm

ml_engineer, то есть 32B Q4 + KV q8 это рабочий вариант на 32к? А по скорости сильно проседает на длинном контексте?

roman_sigma · Пн май 11, 2026 3:59 pm

ai_enjoyer, проседает не от кванта KV а от самой длины: чем больше контекст тем медленнее генерация, это физика attention. На 32к жди заметно меньше ток/с чем на 4к, но юзабельно.

vadim_cloud43 · Пн май 11, 2026 9:27 pm

Я бы не гналась за 32B. 24B новых поколений часто бьют старые 32B по бенчам и оставляют запас VRAM под нормальный контекст без плясок с KV-квантом. Качество это не только число параметров.

vectorreact4930 · Вт май 12, 2026 5:51 am

data_kate +1. Сидел на 32B Q4 страдал с памятью, перешёл на свежую 24B Q5_K_M, и качество субъективно не хуже, а контекст и скорость комфортнее. Параметры это не всё, поколение и данные решают.

bytedocker1834 · Вт май 12, 2026 11:15 am

Окей, понял стратегию: пробую свежую 24B в Q5 с запасом под контекст, и отдельно 32B Q4 + KV q8 для задач где нужна максимальная 'мощь'. Сравню на своих кейсах. Спасибо всем.

Cyberlake

24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

Re: 24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

Re: 24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

Re: 24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

Re: 24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

Re: 24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

Re: 24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

Re: 24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

Кто сейчас на конференции