256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

timur12 · Сообщение **timur12** » 16 май 2026, 13:49

Подбешивает уже. Каждый релиз: контекст 256к, контекст миллион, RoPE, YaRN, все дела. Взял Qwen3 32B, который по паспорту 128к нативно. Скормил договор поставки на 180 страниц, примерно 90к токенов, попросил вытащить все обязательства поставщика со ссылками на пункты. До середины документа все четко, а дальше цирк: путает покупателя с поставщиком, ссылается на пункт 14.8 которого в договоре нет, один штраф вообще из воздуха приписал.

Пробовал то же самое на куске в 30к токенов, идеально. То есть проблема не в задаче, а именно в длине.

Запускал в llama.cpp, -c 131072, kv кэш в q8_0 иначе в 24 гига не лезет. И вот сижу думаю, это у всех так или я что-то делаю не так. Needle in a haystack эти модели проходят на 99%, а реальную работу на длинном контексте заваливают. У кого есть живой опыт с контекстом за 60к, отзовитесь.

solidity_nerd

та же фигня. суммаризировал переписку из жиры за полгода, тысяч 70 токенов. первую треть пересказывает нормально, дальше начинает выдумывать тикеты которых не было. в итоге режу по месяцам, суммаризирую кусками и склеиваю. костыль, но работает

delphin · Сообщение **delphin** » 16 май 2026, 21:32

timur12 писал(а):kv кэш в q8_0 иначе в 24 гига не лезет

Вот отсюда часть твоих проблем. q8_0 на кэше еще терпимо, но многие крутят q4_0 и потом удивляются. Квантование KV бьет именно по длинному контексту, на коротких промптах разницу не увидишь, а на 90к ошибки накапливаются. Прогони тот же договор с f16 кэшем, хотя бы на куске в 60к который влезет, и сравни. У меня на коде разница между q4_0 кэшем и f16 была вполне ощутимая, с q4 модель теряла куски из середины файла.

Но деградация есть и без этого, тут не поспоришь. Паспортные 128к это где модель еще не разваливается совсем, про работает хорошо там речи нет.

spark_main · Сообщение **spark_main** » 16 май 2026, 22:28

не понимаю зачем вообще пихать 90к токенов в промпт. нарежь договор на чанки, закинь в qdrant, сверху reranker и спрашивай сколько влезет. длинный контекст это для ленивых, дорого и медленно. pp на 90к у тебя сколько шел, минуты две?

kkkjtt · Сообщение **kkkjtt** » 16 май 2026, 23:43

spark_main писал(а):нарежь договор на чанки, закинь в qdrant, сверху reranker и спрашивай сколько влезет

И получишь ответ по трем случайным кускам вместо всего документа. Вопрос был вытащить ВСЕ обязательства по всему договору. Ретривер вернет топ-10 чанков и до свидания, про остальные пункты модель даже не узнает. Для точечных вопросов rag норм, для задач где нужен документ целиком он не работает по определению. С кодом та же история: попроси отрефакторить модуль с учетом всех мест вызова, чанки не спасут.

navspy · Сообщение **navspy** » 17 май 2026, 01:00

Needle in a haystack давно никто всерьез не воспринимает, иголку модель найдет хоть на миллионе. Смотрите RULER и NoLiMa, там картина честнее: у большинства открытых моделей эффективный контекст в 2-4 раза меньше паспортного. У типичной 128к модели реально рабочих тысяч 32-48, дальше точность валится ниже 70%. Так что ОП все правильно намерил, маркетинг и реальность просто живут в разных вселенных.

icu2 · Сообщение **icu2** » 17 май 2026, 03:21

90к токенов договора в локалку... вы там совсем поехали. юристу отдай, быстрее выйдет лол

nixosaddict · Сообщение **nixosaddict** » 17 май 2026, 07:22

delphin писал(а):Квантование KV бьет именно по длинному контексту, на коротких промптах разницу не увидишь

подтверждаю цифрами. гонял свой набор из 50 вопросов по доке на 80к: f16 кэш 41 правильный ответ, q8_0 дал 38, q4_0 уже 29. на промптах до 8к все три варианта отвечали одинаково. так что с q8_0 жить можно, q4_0 на длинном контексте мусор. но даже с f16 после 100к qwen плывет, тут уже сама модель, и никакой yarn это не чинит

256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

Re: 256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

Re: 256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

Re: 256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

Re: 256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

Re: 256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

Re: 256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

Re: 256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

Кто сейчас на конференции