Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Talon1fe · Сообщение **Talon1fe** » 13 май 2026, 19:11

Модель пишет что держит 128к контекста, но на практике уже после 40-50к она начинает терять детали из начала и путать факты, это так у всех или я что-то делаю не так. Гоняю локально 32B класс, загружаю в контекст большой документ страниц на 80, прошу найти противоречия. До определённого объёма работает прилично, потом начинается выдумывание и она ссылается на то чего в тексте нет, либо тупо забывает первую половину. KV-кэш не квантую, rope настройки дефолтные от модели. Вопрос, заявленные 128к это реальная рабочая длина или маркетинг.

dannii · Сообщение **dannii** » 14 май 2026, 00:06

@Talon1fe, это давно известная штука, заявленная длина и эффективная длина это разные вещи. на бенчах типа RULER или needle in haystack видно что многие модели с табличкой 128к реально надёжно работают тысяч до 32-64, дальше точность падает. так что нет, ты не сломал, это свойство модели. смотри не на цифру в карточке а на результаты длинноконтекстных бенчей по конкретной модели

ansible777 · Сообщение **ansible777** » 14 май 2026, 04:12

потерянное в середине, классика. начало и конец помнит, середину сливает

leewardms · Сообщение **leewardms** » 14 май 2026, 07:11

Talon1fe писал(а):KV-кэш не квантую

и правильно что не квантуешь, на длинном контексте q4 кэш как раз и добивает точность в ноль. но проверь другое, не упёрся ли ты в rope scaling. если модель тренили на 32к а 128к получены через yarn/линейное растяжение, то за пределами родной длины качество честно деградирует, это математика растяжки а не баг. глянь config модели, поле original_max_position_embeddings или вроде того. если родной контекст 32к, то всё что выше это бонус с оговорками, не рабочая зона

lena11 · Сообщение **lena11** » 14 май 2026, 08:40

а зачем ты вообще пихаешь 80 страниц одним куском. порежь на чанки, прогони rag, будет и точнее и быстрее. забивать весь контекст документом это не способ работать с длинными текстами в 2026, это способ жечь kv-кэш

puto · Сообщение **puto** » 14 май 2026, 12:32

leewardms писал(а):забивать весь контекст документом это не способ работать с длинными текстами

для поиска противоречий между удалёнными кусками текста rag как раз плохо подходит, он наоборот режет связи. если противоречие между стр 5 и стр 70, чанковый ретривер их вместе может и не достать. так что у автора задача где длинный контекст оправдан, не сбивай его на rag не подумав

Version · Сообщение **Version** » 14 май 2026, 16:08

проверь ещё как именно ты подаёшь промпт. многие локальные раннеры молча обрезают контекст если он вылез за n_ctx который ТЫ выставил при запуске, а не за тот что умеет модель. в llama.cpp если не задал -c 131072, оно возьмёт дефолт (часто 4к или сколько в гуфе) и тихо выкинет начало. твои симптомы забывает первую половину ровно на это и похожи. сначала убедись что раннер реально держит окно которое ты думаешь что держишь, выведи n_ctx в логе старта

penalty · Сообщение **penalty** » 14 май 2026, 18:58

о вот про -c дельно, я сам так попадался, думал модель тупит а это раннер окно урезал

Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Re: Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Re: Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Re: Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Re: Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Re: Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Re: Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Re: Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Кто сейчас на конференции