ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?

pandas4 · Сообщение **pandas4** » 25 май 2026, 18:54

Прогнал на выходных Mistral Small 24B в двух вариантах на 3090: exl3 3.2bpw через tabbyAPI и Q3_K_M gguf через llama.cpp. На трех битах разница видна невооруженным глазом, gguf в длинных ответах начинает путаться и повторяться, exl3 держится бодро. Перплексия тоже за exl3, и контекста влазит больше при том же весе.

При этом во всех тредах тут ollama, ollama, llama.cpp, и тишина про exl3. Я что-то упускаю или народ просто не пробовал? tabbyAPI ставится за 10 минут, конфиг один.

mjp1982 · Сообщение **mjp1982** » 25 май 2026, 22:27

Ничего ты не упускаешь кроме того что exl3 это nvidia-only и строго целиком в vram. Ни выгрузки на cpu, ни маков, ни амд по-человечески. У половины этого раздела модель наполовину в озу торчит, им exl3 физически не подходит. Вот и вся загадка популярности.

guardia · Сообщение **guardia** » 25 май 2026, 23:26

@pandas4, +1 табби, год сижу, после олламы как с жигулей пересел

debianmaster

Перплексия это синтетика. На q4 и выше ты в слепом тесте exl3 от gguf не отличишь, проверяли в чатике не раз. А геморроя больше: квантов exl3 на hf днем с огнем, под каждую новую модель жди или конвертируй сам, gguf лежит на каждый чих в пяти размерах через час после релиза. Экономия полбита не стоит этой возни.

ninja_marina

debianmaster писал(а):На q4 и выше ты в слепом тесте exl3 от gguf не отличишь

Так ТС ровно про низкие биты и пишет. На 3-3.5bpw отличишь без всякого слепого теста, у gguf там каша начинается, а exl3 за счет более умного квантования качество держит. Если карта позволяет q4_k_m и выше, бери gguf и не думай, спора нет. Но когда 24B надо утрамбовать в 12 гигов вместе с контекстом, exl3 банально лучше.

KubeSmith · Сообщение **KubeSmith** » 26 май 2026, 07:05

pandas4 писал(а):во всех тредах тут ollama, ollama, llama.cpp, и тишина про exl3

так причина на поверхности, оллама это одна кнопка, а табби это питон, конфиги, кванты руками качать. 90% людей нужна кнопка. и мелкая придирка, оллама внутри уже давно не чистый llama.cpp, у них свой движок с 0.9, так что записывать ее в одну графу с llama.cpp некорректно

TerraformSmith

а на 3060 12гб это заведется? мне как раз 24B хочется, q4 не лезет

ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?

ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?

Re: ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?

Re: ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?

Re: ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?

Re: ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?

Re: ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?

Re: ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?

Кто сейчас на конференции