70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Version · Сообщение **Version** » 13 май 2026, 10:37

Надоели теоретические споры, прогнал сам. Дано: одна 3090. Кандидаты: Llama-3.3-70B в IQ2_XXS (влазит целиком, 19.5 гига) и Qwen3-14B в Q6_K. Тесты свои, 30 заданий: код на питоне, логика, суммаризация на русском, длинный диалог на 40 сообщений.

Результаты меня удивили. В коде 14B Q6 рвет, 70B в этом кванте путает аргументы функций и один раз выдала питон вперемешку с js. А вот в длинном диалоге наоборот, 70B даже лоботомированная держит нить и помнит что было 30 сообщений назад, 14B к концу плывет. Суммаризация примерно поровну.

Вывод у меня такой: для кода и точных задач квант важнее размера, для болтовни и удержания контекста размер важнее кванта. Кидайте помидоры.

nginxsmith · Сообщение **nginxsmith** » 13 май 2026, 10:53

@Version, кванты ниже q4 это лоботомия и точка. ты сравниваешь инвалида со здоровым и удивляешься что инвалид иногда выигрывает

matguyvr · Сообщение **matguyvr** » 13 май 2026, 13:59

@Version, по цифрам: kld у iq2_xxs на 70b порядка 0.5-0.6, это статистически уже другая модель. у q6 на 14b около 0.01. так что ты сравнивал не 70b с 14b, а нечто по мотивам 70b с честной 14b

Tmollo · Сообщение **Tmollo** » 13 май 2026, 16:54

perplexity и kld это все красиво, но downstream задачи они предсказывают так себе. тс хотя бы реальные задания гонял, это полезнее очередной таблички с циферками

boblee · Сообщение **boblee** » 13 май 2026, 17:43

температура какая была? один прогон на задание? без фиксированных сидов и хотя бы трех прогонов это не тест, а гадание на кофейной гуще. и 30 заданий это смешная выборка, разброс съест всю разницу

b1llyn0m · Сообщение **b1llyn0m** » 13 май 2026, 19:17

подтверждаю про русский. ниже q4 у любой модели начинают ехать окончания и согласование, на английском незаметно, на русском видно сразу. для русскоязычных задач q4 это пол, а не потолок

sainty · Сообщение **sainty** » 13 май 2026, 19:56

вопрос поставлен неправильно. докинь вторую 3090 за 60к и гоняй 70b в q4, спор исчезает сам. экономить на враме в 2026 себе дороже

async2025 · Сообщение **async2025** » 14 май 2026, 00:51

14b и не мучайся. мелочь 2026 года и мелочь 2023 это разные вселенные

jpearce · Сообщение **jpearce** » 14 май 2026, 02:59

холивар вечный. через пару месяцев выйдет очередная 20-27b которая порвет обе и тред можно закапывать. но за тесты руками респект, а то все скриншоты чужих бенчей таскают

70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Re: 70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Re: 70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Re: 70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Re: 70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Re: 70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Re: 70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Re: 70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Re: 70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Кто сейчас на конференции