llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете

go_whale · Сообщение **go_whale** » 20 май 2026, 15:26

Накипело. Делаю git pull, пересобираю, и мой проверенный квант Qwen3.6 30B начинает выдавать иероглифы вперемешку с нормальным текстом. Полез разбираться, опять перепилили чтение метаданных. Зимой та же история была с токенайзером у дипсиков, до этого с rope параметрами у длинноконтекстных.

У меня на диске 400 гигов квантов. Интернет не у всех безлимитный и быстрый, у родителей в области я эти гиги сутками тяну. Перекачивать полколлекции после каждого breaking change это издевательство.

Как вы с этим живете? Сидите на старых версиях? А новые модели тогда как?

jbosco · Сообщение **jbosco** » 20 май 2026, 18:02

git pull на рабочей машине, классика жанра. пинуй релиз и не трогай, у меня домашний сервер на одной сборке с весны, новые модели тестирую в отдельной директории с свежим билдом. проблема не в llama.cpp, а в подходе живем на мастере

overflown · Сообщение **overflown** » 20 май 2026, 21:20

вы поймите, проект тащит полтора человека на энтузиазме, а формат живой, потому что модели меняются. MLA у дипсиков в старый формат кэша физически не влезал, пришлось ломать. хочешь стабильность, сиди на ollama, там все причесано и обновляется спокойно

lototsky · Сообщение **lototsky** » 20 май 2026, 22:00

overflown писал(а):хочешь стабильность, сиди на ollama, там все причесано и обновляется спокойно

ага, причесано. ollama сама дважды ломала чат-шаблоны при обновлениях, у людей модели начинали отвечать сами за юзера. и от upstream она отстает на месяцы, новую архитектуру ждешь вечность, пока соизволят подтянуть. это не стабильность, это просто другое расписание поломок

docker13 · Сообщение **docker13** » 21 май 2026, 01:46

половина сломанных квантов это вообще не llama.cpp, а кривые ранние конверсии. народ квантует через час после релиза модели, когда конвертер еще сырой, потом фиксят и перезаливают, а у тебя на диске лежит ранний брак. смотри дату заливки и ревизию перед скачкой. ну и докер с конкретным тегом закрывает проблему git pull полностью, ghcr образы по релизам есть

golang_nerd · Сообщение **golang_nerd** » 21 май 2026, 04:50

+1, после очередного обновления у меня gemma начала писать на смеси русского с корейским. откатился на релиз двухнедельной давности, работает. на мастере жить нельзя, это плюсовый проект с тысячей контрибьюторов, там всегда что-то горит

llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете

llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете

Re: llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете

Re: llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете

Re: llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете

Re: llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете

Re: llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете

Кто сейчас на конференции