кванты
Квантизация локальных моделей в формате GGUF - про то, сколько весов можно ужать без потери мозгов. Главный сюжет здесь это слепые тесты: Q4_K_M против Q6_K или Q8_0, где разницы иногда ноль и народ спорит, плацебо это или реальная деградация, и кто на самом деле умнее - 70B в IQ2_XXS или честный 14B в Q6. Отдельная боль - llama.cpp, который третий раз за полгода ломает совместимость со старыми квантами. Заодно ищут, какая локалка реально умеет в русский, а не в кальку с английского. Для тех, кто гоняет LLM на домашнем железе и считает каждый гигабайт VRAM.
6 тем, 38 ответов, 30 просмотров · все теги
Похожие теги:
gguf 4exl3 1качество моделей 1бенчмарки 1холивар 1Qwen 1русский язык 1t-pro 1llama.cpp 1тестирование 1
- Темы
-
- Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?
в «Локальные LLM и open-source модели» · 7 ответов · 7 просмотров · 10 июн 2026, 13:17
-
- Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?
в «Локальные LLM и open-source модели» · 5 ответов · 6 просмотров · 10 июн 2026, 10:00
-
- Слепой тест Q4_K_M против Q8_0, результат меня удивил
в «Локальные LLM и open-source модели» · 8 ответов · 3 просмотров · 01 июн 2026, 15:17
-
- llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете
в «Локальные LLM и open-source модели» · 5 ответов · 3 просмотров · 21 май 2026, 04:50
-
- Q4 почти без потерь, говорили они. Померил сам, есть вопросы
в «Локальные LLM и open-source модели» · 5 ответов · 5 просмотров · 19 май 2026, 02:20
-
- 70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее
в «Локальные LLM и open-source модели» · 8 ответов · 6 просмотров · 14 май 2026, 02:59