70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Рейтинг: 43.9% · 3 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
Version
Сообщения: 68
Зарегистрирован: 11 май 2026, 03:17

70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Сообщение Version »

Надоели теоретические споры, прогнал сам. Дано: одна 3090. Кандидаты: Llama-3.3-70B в IQ2_XXS (влазит целиком, 19.5 гига) и Qwen3-14B в Q6_K. Тесты свои, 30 заданий: код на питоне, логика, суммаризация на русском, длинный диалог на 40 сообщений.

Результаты меня удивили. В коде 14B Q6 рвет, 70B в этом кванте путает аргументы функций и один раз выдала питон вперемешку с js. А вот в длинном диалоге наоборот, 70B даже лоботомированная держит нить и помнит что было 30 сообщений назад, 14B к концу плывет. Суммаризация примерно поровну.

Вывод у меня такой: для кода и точных задач квант важнее размера, для болтовни и удержания контекста размер важнее кванта. Кидайте помидоры.
👍 ❤️ 🔥3 😄 🤔
Аватара пользователя
nginxsmith
Сообщения: 12
Зарегистрирован: 11 май 2026, 11:07

Re: 70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Сообщение nginxsmith »

@Version, кванты ниже q4 это лоботомия и точка. ты сравниваешь инвалида со здоровым и удивляешься что инвалид иногда выигрывает
👍2 ❤️ 🔥1 😄1 🤔
Аватара пользователя
matguyvr
Сообщения: 65
Зарегистрирован: 14 май 2026, 08:48

Re: 70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Сообщение matguyvr »

@Version, по цифрам: kld у iq2_xxs на 70b порядка 0.5-0.6, это статистически уже другая модель. у q6 на 14b около 0.01. так что ты сравнивал не 70b с 14b, а нечто по мотивам 70b с честной 14b
👍1 ❤️ 🔥 😄 🤔1
Аватара пользователя
Tmollo
Сообщения: 6
Зарегистрирован: 11 май 2026, 18:16

Re: 70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Сообщение Tmollo »

perplexity и kld это все красиво, но downstream задачи они предсказывают так себе. тс хотя бы реальные задания гонял, это полезнее очередной таблички с циферками
👍 ❤️1 🔥 😄1 🤔
Аватара пользователя
boblee
Сообщения: 42
Зарегистрирован: 11 май 2026, 11:59

Re: 70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Сообщение boblee »

температура какая была? один прогон на задание? без фиксированных сидов и хотя бы трех прогонов это не тест, а гадание на кофейной гуще. и 30 заданий это смешная выборка, разброс съест всю разницу
👍2 ❤️ 🔥 😄 🤔1
Аватара пользователя
b1llyn0m
Сообщения: 70
Зарегистрирован: 11 май 2026, 07:32

Re: 70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Сообщение b1llyn0m »

подтверждаю про русский. ниже q4 у любой модели начинают ехать окончания и согласование, на английском незаметно, на русском видно сразу. для русскоязычных задач q4 это пол, а не потолок
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
sainty
Сообщения: 94
Зарегистрирован: 11 май 2026, 02:57

Re: 70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Сообщение sainty »

вопрос поставлен неправильно. докинь вторую 3090 за 60к и гоняй 70b в q4, спор исчезает сам. экономить на враме в 2026 себе дороже
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
async2025
Сообщения: 44
Зарегистрирован: 13 май 2026, 02:57

Re: 70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Сообщение async2025 »

14b и не мучайся. мелочь 2026 года и мелочь 2023 это разные вселенные
👍1 ❤️ 🔥1 😄 🤔
Аватара пользователя
jpearce
Сообщения: 47
Зарегистрирован: 11 май 2026, 23:34

Re: 70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее

Сообщение jpearce »

холивар вечный. через пару месяцев выйдет очередная 20-27b которая порвет обе и тред можно закапывать. но за тесты руками респект, а то все скриншоты чужих бенчей таскают
👍 ❤️ 🔥 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость