кванты

Квантизация локальных моделей в формате GGUF - про то, сколько весов можно ужать без потери мозгов. Главный сюжет здесь это слепые тесты: Q4_K_M против Q6_K или Q8_0, где разницы иногда ноль и народ спорит, плацебо это или реальная деградация, и кто на самом деле умнее - 70B в IQ2_XXS или честный 14B в Q6. Отдельная боль - llama.cpp, который третий раз за полгода ломает совместимость со старыми квантами. Заодно ищут, какая локалка реально умеет в русский, а не в кальку с английского. Для тех, кто гоняет LLM на домашнем железе и считает каждый гигабайт VRAM.

6 тем, 38 ответов, 30 просмотров · все теги

Похожие теги: gguf 4exl3 1качество моделей 1бенчмарки 1холивар 1Qwen 1русский язык 1t-pro 1llama.cpp 1тестирование 1