ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?

Рейтинг: 71.7% · 16 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
pandas4
Сообщения: 36
Зарегистрирован: 15 май 2026, 08:41

ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?

Сообщение pandas4 »

Прогнал на выходных Mistral Small 24B в двух вариантах на 3090: exl3 3.2bpw через tabbyAPI и Q3_K_M gguf через llama.cpp. На трех битах разница видна невооруженным глазом, gguf в длинных ответах начинает путаться и повторяться, exl3 держится бодро. Перплексия тоже за exl3, и контекста влазит больше при том же весе.

При этом во всех тредах тут ollama, ollama, llama.cpp, и тишина про exl3. Я что-то упускаю или народ просто не пробовал? tabbyAPI ставится за 10 минут, конфиг один.
👍2 ❤️2 🔥 😄1 🤔
✔ Лучший ответ сформирован автоматически — ninja_marina
debianmaster писал(а):На q4 и выше ты в слепом тесте exl3 от gguf не отличишь Так ТС ровно про низкие биты и пишет. На 3-3.5bpw отличишь без всякого слепого теста, у gguf там каша начинается, а exl3 за счет более умного квантования качество держит. Если карта позволяет q4_k_m и выше, бери gguf и не думай, спора нет. Но когда 24B надо утрамбовать в 12 гигов вместе с контекстом, exl3 банально лучше.
Перейти к ответу →
Аватара пользователя
mjp1982
Сообщения: 55
Зарегистрирован: 11 май 2026, 04:28

Re: ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?

Сообщение mjp1982 »

Ничего ты не упускаешь кроме того что exl3 это nvidia-only и строго целиком в vram. Ни выгрузки на cpu, ни маков, ни амд по-человечески. У половины этого раздела модель наполовину в озу торчит, им exl3 физически не подходит. Вот и вся загадка популярности.
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
guardia
Сообщения: 49
Зарегистрирован: 11 май 2026, 14:59

Re: ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?

Сообщение guardia »

@pandas4, +1 табби, год сижу, после олламы как с жигулей пересел
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
debianmaster
Сообщения: 5
Зарегистрирован: 11 май 2026, 03:57

Re: ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?

Сообщение debianmaster »

Перплексия это синтетика. На q4 и выше ты в слепом тесте exl3 от gguf не отличишь, проверяли в чатике не раз. А геморроя больше: квантов exl3 на hf днем с огнем, под каждую новую модель жди или конвертируй сам, gguf лежит на каждый чих в пяти размерах через час после релиза. Экономия полбита не стоит этой возни.
👍1 ❤️1 🔥 😄1 🤔
Аватара пользователя
ninja_marina
Сообщения: 11
Зарегистрирован: 18 май 2026, 03:57

Re: ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?

Сообщение ninja_marina »

✔ Лучший ответ — сформирован автоматически
debianmaster писал(а):На q4 и выше ты в слепом тесте exl3 от gguf не отличишь
Так ТС ровно про низкие биты и пишет. На 3-3.5bpw отличишь без всякого слепого теста, у gguf там каша начинается, а exl3 за счет более умного квантования качество держит. Если карта позволяет q4_k_m и выше, бери gguf и не думай, спора нет. Но когда 24B надо утрамбовать в 12 гигов вместе с контекстом, exl3 банально лучше.
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
KubeSmith
Сообщения: 38
Зарегистрирован: 12 май 2026, 04:52

Re: ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?

Сообщение KubeSmith »

pandas4 писал(а):во всех тредах тут ollama, ollama, llama.cpp, и тишина про exl3
так причина на поверхности, оллама это одна кнопка, а табби это питон, конфиги, кванты руками качать. 90% людей нужна кнопка. и мелкая придирка, оллама внутри уже давно не чистый llama.cpp, у них свой движок с 0.9, так что записывать ее в одну графу с llama.cpp некорректно
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
TerraformSmith
Сообщения: 9
Зарегистрирован: 17 май 2026, 06:39

Re: ExLlamaV3 и кванты EXL3 лучше GGUF на низких битах, но все сидят на ollama. Что я упускаю?

Сообщение TerraformSmith »

а на 3060 12гб это заведется? мне как раз 24B хочется, q4 не лезет
👍2 ❤️1 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя