ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?
Рейтинг: 71.7% · 16 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?
Прогнал на выходных Mistral Small 24B в двух вариантах на 3090: exl3 3.2bpw через tabbyAPI и Q3_K_M gguf через llama.cpp. На трех битах разница видна невооруженным глазом, gguf в длинных ответах начинает путаться и повторяться, exl3 держится бодро. Перплексия тоже за exl3, и контекста влазит больше при том же весе.
При этом во всех тредах тут ollama, ollama, llama.cpp, и тишина про exl3. Я что-то упускаю или народ просто не пробовал? tabbyAPI ставится за 10 минут, конфиг один.
При этом во всех тредах тут ollama, ollama, llama.cpp, и тишина про exl3. Я что-то упускаю или народ просто не пробовал? tabbyAPI ставится за 10 минут, конфиг один.
✔ Лучший ответ сформирован автоматически — ninja_marina
debianmaster писал(а):На q4 и выше ты в слепом тесте exl3 от gguf не отличишь Так ТС ровно про низкие биты и пишет. На 3-3.5bpw отличишь без всякого слепого теста, у gguf там каша начинается, а exl3 за счет более умного квантования качество держит. Если карта позволяет q4_k_m и выше, бери gguf и не думай, спора нет. Но когда 24B надо утрамбовать в 12 гигов вместе с контекстом, exl3 банально лучше.
Re: ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?
Ничего ты не упускаешь кроме того что exl3 это nvidia-only и строго целиком в vram. Ни выгрузки на cpu, ни маков, ни амд по-человечески. У половины этого раздела модель наполовину в озу торчит, им exl3 физически не подходит. Вот и вся загадка популярности.
- debianmaster
- Сообщения: 5
- Зарегистрирован: 11 май 2026, 03:57
Re: ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?
Перплексия это синтетика. На q4 и выше ты в слепом тесте exl3 от gguf не отличишь, проверяли в чатике не раз. А геморроя больше: квантов exl3 на hf днем с огнем, под каждую новую модель жди или конвертируй сам, gguf лежит на каждый чих в пяти размерах через час после релиза. Экономия полбита не стоит этой возни.
- ninja_marina
- Сообщения: 11
- Зарегистрирован: 18 май 2026, 03:57
Re: ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?
✔ Лучший ответ — сформирован автоматически
Так ТС ровно про низкие биты и пишет. На 3-3.5bpw отличишь без всякого слепого теста, у gguf там каша начинается, а exl3 за счет более умного квантования качество держит. Если карта позволяет q4_k_m и выше, бери gguf и не думай, спора нет. Но когда 24B надо утрамбовать в 12 гигов вместе с контекстом, exl3 банально лучше.debianmaster писал(а):На q4 и выше ты в слепом тесте exl3 от gguf не отличишь
Re: ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?
так причина на поверхности, оллама это одна кнопка, а табби это питон, конфиги, кванты руками качать. 90% людей нужна кнопка. и мелкая придирка, оллама внутри уже давно не чистый llama.cpp, у них свой движок с 0.9, так что записывать ее в одну графу с llama.cpp некорректноpandas4 писал(а):во всех тредах тут ollama, ollama, llama.cpp, и тишина про exl3
- TerraformSmith
- Сообщения: 9
- Зарегистрирован: 17 май 2026, 06:39
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- PTRACE_TRACEME в челлендже не убивается ни патчем, ни LD_PRELOAD — что я упускаю?
18 ответов · 1699 просмотров
-
- 1Сники в 2026 получают как сеньоры в бигтехе, а вы все смеетесь. Объясните, что я упускаю
8 ответов · 6 просмотров
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя