llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете

Рейтинг: 37.6% · 5 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
go_whale
Сообщения: 9
Зарегистрирован: 13 май 2026, 04:01

llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете

Сообщение go_whale »

Накипело. Делаю git pull, пересобираю, и мой проверенный квант Qwen3.6 30B начинает выдавать иероглифы вперемешку с нормальным текстом. Полез разбираться, опять перепилили чтение метаданных. Зимой та же история была с токенайзером у дипсиков, до этого с rope параметрами у длинноконтекстных.

У меня на диске 400 гигов квантов. Интернет не у всех безлимитный и быстрый, у родителей в области я эти гиги сутками тяну. Перекачивать полколлекции после каждого breaking change это издевательство.

Как вы с этим живете? Сидите на старых версиях? А новые модели тогда как?
👍2 ❤️ 🔥 😄1 🤔
✔ Лучший ответ сформирован автоматически — lototsky
overflown писал(а):хочешь стабильность, сиди на ollama, там все причесано и обновляется спокойно ага, причесано. ollama сама дважды ломала чат-шаблоны при обновлениях, у людей модели начинали отвечать сами за юзера. и от upstream она отстает на месяцы, новую архитектуру ждешь вечность, пока соизволят подтянуть. это не стабильность, это просто другое расписание поломок
Перейти к ответу →
Аватара пользователя
jbosco
Сообщения: 60
Зарегистрирован: 11 май 2026, 02:28

Re: llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете

Сообщение jbosco »

git pull на рабочей машине, классика жанра. пинуй релиз и не трогай, у меня домашний сервер на одной сборке с весны, новые модели тестирую в отдельной директории с свежим билдом. проблема не в llama.cpp, а в подходе живем на мастере
👍1 ❤️ 🔥 😄1 🤔
Аватара пользователя
overflown
Сообщения: 13
Зарегистрирован: 12 май 2026, 02:37

Re: llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете

Сообщение overflown »

вы поймите, проект тащит полтора человека на энтузиазме, а формат живой, потому что модели меняются. MLA у дипсиков в старый формат кэша физически не влезал, пришлось ломать. хочешь стабильность, сиди на ollama, там все причесано и обновляется спокойно
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
lototsky
Сообщения: 8
Зарегистрирован: 14 май 2026, 19:01

Re: llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете

Сообщение lototsky »

✔ Лучший ответ — сформирован автоматически
overflown писал(а):хочешь стабильность, сиди на ollama, там все причесано и обновляется спокойно
ага, причесано. ollama сама дважды ломала чат-шаблоны при обновлениях, у людей модели начинали отвечать сами за юзера. и от upstream она отстает на месяцы, новую архитектуру ждешь вечность, пока соизволят подтянуть. это не стабильность, это просто другое расписание поломок
👍1 ❤️1 🔥1 😄1 🤔
Аватара пользователя
docker13
Сообщения: 23
Зарегистрирован: 12 май 2026, 16:43

Re: llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете

Сообщение docker13 »

половина сломанных квантов это вообще не llama.cpp, а кривые ранние конверсии. народ квантует через час после релиза модели, когда конвертер еще сырой, потом фиксят и перезаливают, а у тебя на диске лежит ранний брак. смотри дату заливки и ревизию перед скачкой. ну и докер с конкретным тегом закрывает проблему git pull полностью, ghcr образы по релизам есть
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
golang_nerd
Сообщения: 11
Зарегистрирован: 12 май 2026, 00:16

Re: llama.cpp третий раз за полгода ломает старые кванты, как вы с этим живете

Сообщение golang_nerd »

+1, после очередного обновления у меня gemma начала писать на смеси русского с корейским. откатился на релиз двухнедельной давности, работает. на мастере жить нельзя, это плюсовый проект с тысячей контрибьюторов, там всегда что-то горит
👍2 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость