кванты

Квантизация локальных моделей в формате GGUF - про то, сколько весов можно ужать без потери мозгов. Главный сюжет здесь это слепые тесты: Q4_K_M против Q6_K или Q8_0, где разницы иногда ноль и народ спорит, плацебо это или реальная деградация, и кто на самом деле умнее - 70B в IQ2_XXS или честный 14B в Q6. Отдельная боль - llama.cpp, который третий раз за полгода ломает совместимость со старыми квантами. Заодно ищут, какая локалка реально умеет в русский, а не в кальку с английского. Для тех, кто гоняет LLM на домашнем железе и считает каждый гигабайт VRAM.

6 тем, 38 ответов, 30 просмотров · все теги

Темы

Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?
в «Локальные LLM и open-source модели» · 7 ответов · 7 просмотров · 10 июн 2026, 13:17
Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?
в «Локальные LLM и open-source модели» · 5 ответов · 6 просмотров · 10 июн 2026, 10:00
Слепой тест Q4_K_M против Q8_0, результат меня удивил
в «Локальные LLM и open-source модели» · 8 ответов · 3 просмотров · 01 июн 2026, 15:17
llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете
в «Локальные LLM и open-source модели» · 5 ответов · 3 просмотров · 21 май 2026, 04:50
Q4 почти без потерь, говорили они. Померил сам, есть вопросы
в «Локальные LLM и open-source модели» · 5 ответов · 5 просмотров · 19 май 2026, 02:20
70B в IQ2_XXS против 14B в Q6, кто на самом деле умнее
в «Локальные LLM и open-source модели» · 8 ответов · 6 просмотров · 14 май 2026, 02:59