Контекст 128к заявлен а на 40к модель уже плывёт, это норма?
Рейтинг: 52.9% · 8 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Контекст 128к заявлен а на 40к модель уже плывёт, это норма?
Модель пишет что держит 128к контекста, но на практике уже после 40-50к она начинает терять детали из начала и путать факты, это так у всех или я что-то делаю не так. Гоняю локально 32B класс, загружаю в контекст большой документ страниц на 80, прошу найти противоречия. До определённого объёма работает прилично, потом начинается выдумывание и она ссылается на то чего в тексте нет, либо тупо забывает первую половину. KV-кэш не квантую, rope настройки дефолтные от модели. Вопрос, заявленные 128к это реальная рабочая длина или маркетинг.
✔ Лучший ответ сформирован автоматически — leewardms
Talon1fe писал(а):KV-кэш не квантую и правильно что не квантуешь, на длинном контексте q4 кэш как раз и добивает точность в ноль. но проверь другое, не упёрся ли ты в rope scaling. если модель тренили на 32к а 128к получены через yarn/линейное растяжение, то за пределами родной длины качество честно деградирует, это математика растяжки а не баг. глянь config модели, поле original_max_position_emb…
Re: Контекст 128к заявлен а на 40к модель уже плывёт, это норма?
@Talon1fe, это давно известная штука, заявленная длина и эффективная длина это разные вещи. на бенчах типа RULER или needle in haystack видно что многие модели с табличкой 128к реально надёжно работают тысяч до 32-64, дальше точность падает. так что нет, ты не сломал, это свойство модели. смотри не на цифру в карточке а на результаты длинноконтекстных бенчей по конкретной модели
- ansible777
- Сообщения: 46
- Зарегистрирован: 11 май 2026, 10:14
Re: Контекст 128к заявлен а на 40к модель уже плывёт, это норма?
✔ Лучший ответ — сформирован автоматически
и правильно что не квантуешь, на длинном контексте q4 кэш как раз и добивает точность в ноль. но проверь другое, не упёрся ли ты в rope scaling. если модель тренили на 32к а 128к получены через yarn/линейное растяжение, то за пределами родной длины качество честно деградирует, это математика растяжки а не баг. глянь config модели, поле original_max_position_embeddings или вроде того. если родной контекст 32к, то всё что выше это бонус с оговорками, не рабочая зонаTalon1fe писал(а):KV-кэш не квантую
Re: Контекст 128к заявлен а на 40к модель уже плывёт, это норма?
для поиска противоречий между удалёнными кусками текста rag как раз плохо подходит, он наоборот режет связи. если противоречие между стр 5 и стр 70, чанковый ретривер их вместе может и не достать. так что у автора задача где длинный контекст оправдан, не сбивай его на rag не подумавleewardms писал(а):забивать весь контекст документом это не способ работать с длинными текстами
Re: Контекст 128к заявлен а на 40к модель уже плывёт, это норма?
проверь ещё как именно ты подаёшь промпт. многие локальные раннеры молча обрезают контекст если он вылез за n_ctx который ТЫ выставил при запуске, а не за тот что умеет модель. в llama.cpp если не задал -c 131072, оно возьмёт дефолт (часто 4к или сколько в гуфе) и тихо выкинет начало. твои симптомы забывает первую половину ровно на это и похожи. сначала убедись что раннер реально держит окно которое ты думаешь что держишь, выведи n_ctx в логе старта
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
- Контекст-окно растёт, а агент всё равно тупеет на больших задачах. Боремся с этим
14 ответов · 851 просмотров
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость