256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

Рейтинг: 20.7% · 1 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
timur12
Сообщения: 30
Зарегистрирован: 13 май 2026, 01:35

256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

Сообщение timur12 »

Подбешивает уже. Каждый релиз: контекст 256к, контекст миллион, RoPE, YaRN, все дела. Взял Qwen3 32B, который по паспорту 128к нативно. Скормил договор поставки на 180 страниц, примерно 90к токенов, попросил вытащить все обязательства поставщика со ссылками на пункты. До середины документа все четко, а дальше цирк: путает покупателя с поставщиком, ссылается на пункт 14.8 которого в договоре нет, один штраф вообще из воздуха приписал.

Пробовал то же самое на куске в 30к токенов, идеально. То есть проблема не в задаче, а именно в длине.

Запускал в llama.cpp, -c 131072, kv кэш в q8_0 иначе в 24 гига не лезет. И вот сижу думаю, это у всех так или я что-то делаю не так. Needle in a haystack эти модели проходят на 99%, а реальную работу на длинном контексте заваливают. У кого есть живой опыт с контекстом за 60к, отзовитесь.
👍3 ❤️1 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — delphin
timur12 писал(а):kv кэш в q8_0 иначе в 24 гига не лезет Вот отсюда часть твоих проблем. q8_0 на кэше еще терпимо, но многие крутят q4_0 и потом удивляются. Квантование KV бьет именно по длинному контексту, на коротких промптах разницу не увидишь, а на 90к ошибки накапливаются. Прогони тот же договор с f16 кэшем, хотя бы на куске в 60к который влезет, и сравни. У меня на коде разница между q4_0 кэ…
Перейти к ответу →
Аватара пользователя
solidity_nerd
Сообщения: 5
Зарегистрирован: 11 май 2026, 10:06

Re: 256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

Сообщение solidity_nerd »

та же фигня. суммаризировал переписку из жиры за полгода, тысяч 70 токенов. первую треть пересказывает нормально, дальше начинает выдумывать тикеты которых не было. в итоге режу по месяцам, суммаризирую кусками и склеиваю. костыль, но работает
👍 ❤️ 🔥1 😄 🤔2
Аватара пользователя
delphin
Сообщения: 72
Зарегистрирован: 13 май 2026, 02:35

Re: 256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

Сообщение delphin »

✔ Лучший ответ — сформирован автоматически
timur12 писал(а):kv кэш в q8_0 иначе в 24 гига не лезет
Вот отсюда часть твоих проблем. q8_0 на кэше еще терпимо, но многие крутят q4_0 и потом удивляются. Квантование KV бьет именно по длинному контексту, на коротких промптах разницу не увидишь, а на 90к ошибки накапливаются. Прогони тот же договор с f16 кэшем, хотя бы на куске в 60к который влезет, и сравни. У меня на коде разница между q4_0 кэшем и f16 была вполне ощутимая, с q4 модель теряла куски из середины файла.

Но деградация есть и без этого, тут не поспоришь. Паспортные 128к это где модель еще не разваливается совсем, про работает хорошо там речи нет.
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
spark_main
Сообщения: 65
Зарегистрирован: 12 май 2026, 07:40

Re: 256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

Сообщение spark_main »

не понимаю зачем вообще пихать 90к токенов в промпт. нарежь договор на чанки, закинь в qdrant, сверху reranker и спрашивай сколько влезет. длинный контекст это для ленивых, дорого и медленно. pp на 90к у тебя сколько шел, минуты две?
👍2 ❤️ 🔥2 😄 🤔
Аватара пользователя
kkkjtt
Сообщения: 7
Зарегистрирован: 22 май 2026, 23:28

Re: 256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

Сообщение kkkjtt »

spark_main писал(а):нарежь договор на чанки, закинь в qdrant, сверху reranker и спрашивай сколько влезет
И получишь ответ по трем случайным кускам вместо всего документа. Вопрос был вытащить ВСЕ обязательства по всему договору. Ретривер вернет топ-10 чанков и до свидания, про остальные пункты модель даже не узнает. Для точечных вопросов rag норм, для задач где нужен документ целиком он не работает по определению. С кодом та же история: попроси отрефакторить модуль с учетом всех мест вызова, чанки не спасут.
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
navspy
Сообщения: 60
Зарегистрирован: 12 май 2026, 02:48

Re: 256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

Сообщение navspy »

Needle in a haystack давно никто всерьез не воспринимает, иголку модель найдет хоть на миллионе. Смотрите RULER и NoLiMa, там картина честнее: у большинства открытых моделей эффективный контекст в 2-4 раза меньше паспортного. У типичной 128к модели реально рабочих тысяч 32-48, дальше точность валится ниже 70%. Так что ОП все правильно намерил, маркетинг и реальность просто живут в разных вселенных.
👍2 ❤️ 🔥1 😄 🤔
Аватара пользователя
icu2
Сообщения: 65
Зарегистрирован: 14 май 2026, 06:04

Re: 256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

Сообщение icu2 »

90к токенов договора в локалку... вы там совсем поехали. юристу отдай, быстрее выйдет лол
👍3 ❤️ 🔥 😄 🤔
Аватара пользователя
nixosaddict
Сообщения: 9
Зарегистрирован: 17 май 2026, 18:46

Re: 256к контекста в карточке модели, а после 60к каша. Кто-нибудь реально пользуется длинным контекстом?

Сообщение nixosaddict »

delphin писал(а):Квантование KV бьет именно по длинному контексту, на коротких промптах разницу не увидишь
подтверждаю цифрами. гонял свой набор из 50 вопросов по доке на 80к: f16 кэш 41 правильный ответ, q8_0 дал 38, q4_0 уже 29. на промптах до 8к все три варианта отвечали одинаково. так что с q8_0 жить можно, q4_0 на длинном контексте мусор. но даже с f16 после 100к qwen плывет, тут уже сама модель, и никакой yarn это не чинит
👍2 ❤️1 🔥 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость