llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете
Рейтинг: 37.6% · 5 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете
Накипело. Делаю git pull, пересобираю, и мой проверенный квант Qwen3.6 30B начинает выдавать иероглифы вперемешку с нормальным текстом. Полез разбираться, опять перепилили чтение метаданных. Зимой та же история была с токенайзером у дипсиков, до этого с rope параметрами у длинноконтекстных.
У меня на диске 400 гигов квантов. Интернет не у всех безлимитный и быстрый, у родителей в области я эти гиги сутками тяну. Перекачивать полколлекции после каждого breaking change это издевательство.
Как вы с этим живете? Сидите на старых версиях? А новые модели тогда как?
У меня на диске 400 гигов квантов. Интернет не у всех безлимитный и быстрый, у родителей в области я эти гиги сутками тяну. Перекачивать полколлекции после каждого breaking change это издевательство.
Как вы с этим живете? Сидите на старых версиях? А новые модели тогда как?
✔ Лучший ответ сформирован автоматически — lototsky
overflown писал(а):хочешь стабильность, сиди на ollama, там все причесано и обновляется спокойно ага, причесано. ollama сама дважды ломала чат-шаблоны при обновлениях, у людей модели начинали отвечать сами за юзера. и от upstream она отстает на месяцы, новую архитектуру ждешь вечность, пока соизволят подтянуть. это не стабильность, это просто другое расписание поломок
Re: llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете
git pull на рабочей машине, классика жанра. пинуй релиз и не трогай, у меня домашний сервер на одной сборке с весны, новые модели тестирую в отдельной директории с свежим билдом. проблема не в llama.cpp, а в подходе живем на мастере
Re: llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете
вы поймите, проект тащит полтора человека на энтузиазме, а формат живой, потому что модели меняются. MLA у дипсиков в старый формат кэша физически не влезал, пришлось ломать. хочешь стабильность, сиди на ollama, там все причесано и обновляется спокойно
Re: llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете
✔ Лучший ответ — сформирован автоматически
ага, причесано. ollama сама дважды ломала чат-шаблоны при обновлениях, у людей модели начинали отвечать сами за юзера. и от upstream она отстает на месяцы, новую архитектуру ждешь вечность, пока соизволят подтянуть. это не стабильность, это просто другое расписание поломокoverflown писал(а):хочешь стабильность, сиди на ollama, там все причесано и обновляется спокойно
Re: llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете
половина сломанных квантов это вообще не llama.cpp, а кривые ранние конверсии. народ квантует через час после релиза модели, когда конвертер еще сырой, потом фиксят и перезаливают, а у тебя на диске лежит ранний брак. смотри дату заливки и ревизию перед скачкой. ну и докер с конкретным тегом закрывает проблему git pull полностью, ghcr образы по релизам есть
- golang_nerd
- Сообщения: 11
- Зарегистрирован: 12 май 2026, 00:16
Re: llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете
+1, после очередного обновления у меня gemma начала писать на смеси русского с корейским. откатился на релиз двухнедельной давности, работает. на мастере жить нельзя, это плюсовый проект с тысячей контрибьюторов, там всегда что-то горит
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Полгода фрилансу — ни одного клиента из бирж. Где вы реально находите заказы в 2026?
10 ответов · 1190 просмотров
-
-
- Свалил с Unity на Godot 4.4 после истории с runtime fee — спустя полгода честно делюсь
17 ответов · 833 просмотров
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость