Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

Рейтинг: 51% · 4 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
kickmybox
Сообщения: 60
Зарегистрирован: 11 май 2026, 08:23

Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

Сообщение kickmybox »

Гонял Qwen3.5-35B-A4B на разборе логов инцидента. Контекст заявлен 256к, обрадовался, скормил склейку логов на 60к токенов и попросил найти первое упоминание таймаута до падения. Модель уверенно цитирует кусок из середины и утверждает, что это самое начало. Ну думаю, может лог кривой. Собрал самопальный needle-in-haystack: прячу контрольную фразу в разных местах текста и спрашиваю. До 32к находит почти всегда, на 64к уже примерно 6 из 10, на 120к стабильно ловит только то, что лежит близко к концу. При этом VRAM жрётся честно, KV-кэш на 128к отъел 12 с лишним гигов. То есть память за контекст плати полностью, а пользуется модель дай бог третью. llama.cpp b7180, rope и yarn не трогал, всё дефолтное. Я что-то не так готовлю или заявленные циферки это просто маркетинг?
👍1 ❤️ 🔥1 😄 🤔
✔ Лучший ответ сформирован автоматически — raspberryguru
asyncpro писал(а):заявленный контекст это сколько влезет без полного развала, а не сколько модель реально юзает не совсем так. это не закон природы, а вопрос того, тренили модель на длинных последовательностях или просто растянули rope и вписали красивую цифру в карточку. у minimax заявка вообще миллион, и ruler на 256к они проходят прилично, потому что реально учили. а у квена хвост, похоже, дот…
Перейти к ответу →
Аватара пользователя
asyncpro
Сообщения: 17
Зарегистрирован: 15 май 2026, 10:37

Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

Сообщение asyncpro »

@kickmybox, это lost in the middle, ему сто лет в обед. заявленный контекст это сколько влезет без полного развала, а не сколько модель реально юзает. все так живут, добро пожаловать
👍 ❤️ 🔥 😄2 🤔
Аватара пользователя
fpga2025
Сообщения: 7
Зарегистрирован: 19 май 2026, 08:28

Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

Сообщение fpga2025 »

По памяти подскажу. Включи -fa и квантуй кэш: -ctk q8_0 -ctv q8_0, твои 12 гигов превратятся в 6, на качество практически не влияет. q4_0 для кэша уже не советую, на длинном контексте заметно сыпется, проверял на саммари больших доков. А по качеству внимания есть бенч RULER, там у большинства моделей эффективный контекст вдвое-втрое меньше заявленного. 256к в паспорте и честных 64-80к по факту это ещё приличный результат, бывает сильно хуже.
👍1 ❤️ 🔥1 😄 🤔
Аватара пользователя
raspberryguru
Сообщения: 14
Зарегистрирован: 11 май 2026, 05:05

Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

Сообщение raspberryguru »

✔ Лучший ответ — сформирован автоматически
asyncpro писал(а):заявленный контекст это сколько влезет без полного развала, а не сколько модель реально юзает
не совсем так. это не закон природы, а вопрос того, тренили модель на длинных последовательностях или просто растянули rope и вписали красивую цифру в карточку. у minimax заявка вообще миллион, и ruler на 256к они проходят прилично, потому что реально учили. а у квена хвост, похоже, дотянут yarn-ом, отсюда и провал после 32к. так что не все так живут, это конкретные модели так живут
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
mvdelu
Сообщения: 17
Зарегистрирован: 13 май 2026, 07:23

Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

Сообщение mvdelu »

не понял прикола. лог на 60к токенов в нейросеть... grep уже отменили? awk, sort, uniq, и не надо 12 гигов кэша жечь
👍1 ❤️ 🔥2 😄 🤔
Аватара пользователя
jpearce
Сообщения: 47
Зарегистрирован: 11 май 2026, 23:34

Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

Сообщение jpearce »

mvdelu писал(а):grep уже отменили?
grep найдёт строку, которую я и так знаю. а мне надо собрать таймлайн по четырём сервисам, где причина в одном логе, а следствие через 40 секунд в другом. попробуй грепом восстановить цепочку, когда не знаешь, что искать. для этого и пихаю всё одним куском. Кстати, по совету выше включил q8_0 на кэш, теперь влезает в карту целиком, на глаз качество то же.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
Kutz
Сообщения: 71
Зарегистрирован: 16 май 2026, 02:21

Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

Сообщение Kutz »

@jpearce, душный момент. если в gguf зашиты yarn-параметры, llama.cpp подхватывает их сам, но смотри, что сервер пишет при старте про n_ctx_train и rope scaling. бывает, квантователь заливает метаданные криво, и модель крутится вообще без yarn. у меня так один bartowski-квант месяц работал с обрезанным вниманием, пока я в лог не посмотрел. и b7180 уже не свежак, в новых билдах что-то чинили по длинному контексту
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
lonelygoblin
Сообщения: 61
Зарегистрирован: 12 май 2026, 12:45

Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

Сообщение lonelygoblin »

подниму. думал, я один такой, у меня после 50к в ролеплее персонаж забывает, кто он. теперь хоть понятно почему
👍 ❤️1 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей