Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Рейтинг: 52.9% · 8 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
Talon1fe
Сообщения: 2
Зарегистрирован: 23 май 2026, 09:45

Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Сообщение Talon1fe »

Модель пишет что держит 128к контекста, но на практике уже после 40-50к она начинает терять детали из начала и путать факты, это так у всех или я что-то делаю не так. Гоняю локально 32B класс, загружаю в контекст большой документ страниц на 80, прошу найти противоречия. До определённого объёма работает прилично, потом начинается выдумывание и она ссылается на то чего в тексте нет, либо тупо забывает первую половину. KV-кэш не квантую, rope настройки дефолтные от модели. Вопрос, заявленные 128к это реальная рабочая длина или маркетинг.
👍2 ❤️1 🔥 😄2 🤔1
✔ Лучший ответ сформирован автоматически — leewardms
Talon1fe писал(а):KV-кэш не квантую и правильно что не квантуешь, на длинном контексте q4 кэш как раз и добивает точность в ноль. но проверь другое, не упёрся ли ты в rope scaling. если модель тренили на 32к а 128к получены через yarn/линейное растяжение, то за пределами родной длины качество честно деградирует, это математика растяжки а не баг. глянь config модели, поле original_max_position_emb…
Перейти к ответу →
Аватара пользователя
dannii
Сообщения: 20
Зарегистрирован: 13 май 2026, 20:46

Re: Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Сообщение dannii »

@Talon1fe, это давно известная штука, заявленная длина и эффективная длина это разные вещи. на бенчах типа RULER или needle in haystack видно что многие модели с табличкой 128к реально надёжно работают тысяч до 32-64, дальше точность падает. так что нет, ты не сломал, это свойство модели. смотри не на цифру в карточке а на результаты длинноконтекстных бенчей по конкретной модели
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
ansible777
Сообщения: 46
Зарегистрирован: 11 май 2026, 10:14

Re: Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Сообщение ansible777 »

потерянное в середине, классика. начало и конец помнит, середину сливает
👍3 ❤️ 🔥 😄 🤔
Аватара пользователя
leewardms
Сообщения: 23
Зарегистрирован: 11 май 2026, 18:24

Re: Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Сообщение leewardms »

✔ Лучший ответ — сформирован автоматически
Talon1fe писал(а):KV-кэш не квантую
и правильно что не квантуешь, на длинном контексте q4 кэш как раз и добивает точность в ноль. но проверь другое, не упёрся ли ты в rope scaling. если модель тренили на 32к а 128к получены через yarn/линейное растяжение, то за пределами родной длины качество честно деградирует, это математика растяжки а не баг. глянь config модели, поле original_max_position_embeddings или вроде того. если родной контекст 32к, то всё что выше это бонус с оговорками, не рабочая зона
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
lena11
Сообщения: 2
Зарегистрирован: 09 июн 2026, 16:07

Re: Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Сообщение lena11 »

а зачем ты вообще пихаешь 80 страниц одним куском. порежь на чанки, прогони rag, будет и точнее и быстрее. забивать весь контекст документом это не способ работать с длинными текстами в 2026, это способ жечь kv-кэш
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
puto
Сообщения: 40
Зарегистрирован: 11 май 2026, 06:02

Re: Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Сообщение puto »

leewardms писал(а):забивать весь контекст документом это не способ работать с длинными текстами
для поиска противоречий между удалёнными кусками текста rag как раз плохо подходит, он наоборот режет связи. если противоречие между стр 5 и стр 70, чанковый ретривер их вместе может и не достать. так что у автора задача где длинный контекст оправдан, не сбивай его на rag не подумав
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
Version
Сообщения: 68
Зарегистрирован: 11 май 2026, 03:17

Re: Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Сообщение Version »

проверь ещё как именно ты подаёшь промпт. многие локальные раннеры молча обрезают контекст если он вылез за n_ctx который ТЫ выставил при запуске, а не за тот что умеет модель. в llama.cpp если не задал -c 131072, оно возьмёт дефолт (часто 4к или сколько в гуфе) и тихо выкинет начало. твои симптомы забывает первую половину ровно на это и похожи. сначала убедись что раннер реально держит окно которое ты думаешь что держишь, выведи n_ctx в логе старта
👍2 ❤️1 🔥 😄1 🤔
Аватара пользователя
penalty
Сообщения: 37
Зарегистрирован: 16 май 2026, 21:13

Re: Контекст 128к заявлен а на 40к модель уже плывёт, это норма?

Сообщение penalty »

о вот про -c дельно, я сам так попадался, думал модель тупит а это раннер окно урезал
👍1 ❤️ 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость