Беру 3090 под локалку. Хочу максимум качества. 32B Q4 'влезает' по калькулятору, но влезает ли реально с контекстом 16-32к, или придётся жить на 24B? Кто на 24гб живёт, поделитесь.
32B Q4_K_M это ~19-20гб только веса. Остаётся 4гб под KV-кэш и оверхед. 16к контекста на 32B влезет впритык, 32к уже нет без квантизации KV. Десктоп если на этой же карте, минус ещё пара гигов.
ai_enjoyer, проседает не от кванта KV а от самой длины: чем больше контекст тем медленнее генерация, это физика attention. На 32к жди заметно меньше ток/с чем на 4к, но юзабельно.
Я бы не гналась за 32B. 24B новых поколений часто бьют старые 32B по бенчам и оставляют запас VRAM под нормальный контекст без плясок с KV-квантом. Качество это не только число параметров.
data_kate +1. Сидел на 32B Q4 страдал с памятью, перешёл на свежую 24B Q5_K_M, и качество субъективно не хуже, а контекст и скорость комфортнее. Параметры это не всё, поколение и данные решают.
Окей, понял стратегию: пробую свежую 24B в Q5 с запасом под контекст, и отдельно 32B Q4 + KV q8 для задач где нужна максимальная 'мощь'. Сравню на своих кейсах. Спасибо всем.