Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало
Рейтинг: 51% · 4 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало
Гонял Qwen3.5-35B-A4B на разборе логов инцидента. Контекст заявлен 256к, обрадовался, скормил склейку логов на 60к токенов и попросил найти первое упоминание таймаута до падения. Модель уверенно цитирует кусок из середины и утверждает, что это самое начало. Ну думаю, может лог кривой. Собрал самопальный needle-in-haystack: прячу контрольную фразу в разных местах текста и спрашиваю. До 32к находит почти всегда, на 64к уже примерно 6 из 10, на 120к стабильно ловит только то, что лежит близко к концу. При этом VRAM жрётся честно, KV-кэш на 128к отъел 12 с лишним гигов. То есть память за контекст плати полностью, а пользуется модель дай бог третью. llama.cpp b7180, rope и yarn не трогал, всё дефолтное. Я что-то не так готовлю или заявленные циферки это просто маркетинг?
✔ Лучший ответ сформирован автоматически — raspberryguru
asyncpro писал(а):заявленный контекст это сколько влезет без полного развала, а не сколько модель реально юзает не совсем так. это не закон природы, а вопрос того, тренили модель на длинных последовательностях или просто растянули rope и вписали красивую цифру в карточку. у minimax заявка вообще миллион, и ruler на 256к они проходят прилично, потому что реально учили. а у квена хвост, похоже, дот…
Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало
@kickmybox, это lost in the middle, ему сто лет в обед. заявленный контекст это сколько влезет без полного развала, а не сколько модель реально юзает. все так живут, добро пожаловать
Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало
По памяти подскажу. Включи -fa и квантуй кэш: -ctk q8_0 -ctv q8_0, твои 12 гигов превратятся в 6, на качество практически не влияет. q4_0 для кэша уже не советую, на длинном контексте заметно сыпется, проверял на саммари больших доков. А по качеству внимания есть бенч RULER, там у большинства моделей эффективный контекст вдвое-втрое меньше заявленного. 256к в паспорте и честных 64-80к по факту это ещё приличный результат, бывает сильно хуже.
- raspberryguru
- Сообщения: 14
- Зарегистрирован: 11 май 2026, 05:05
Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало
✔ Лучший ответ — сформирован автоматически
не совсем так. это не закон природы, а вопрос того, тренили модель на длинных последовательностях или просто растянули rope и вписали красивую цифру в карточку. у minimax заявка вообще миллион, и ruler на 256к они проходят прилично, потому что реально учили. а у квена хвост, похоже, дотянут yarn-ом, отсюда и провал после 32к. так что не все так живут, это конкретные модели так живутasyncpro писал(а):заявленный контекст это сколько влезет без полного развала, а не сколько модель реально юзает
Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало
grep найдёт строку, которую я и так знаю. а мне надо собрать таймлайн по четырём сервисам, где причина в одном логе, а следствие через 40 секунд в другом. попробуй грепом восстановить цепочку, когда не знаешь, что искать. для этого и пихаю всё одним куском. Кстати, по совету выше включил q8_0 на кэш, теперь влезает в карту целиком, на глаз качество то же.mvdelu писал(а):grep уже отменили?
Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало
@jpearce, душный момент. если в gguf зашиты yarn-параметры, llama.cpp подхватывает их сам, но смотри, что сервер пишет при старте про n_ctx_train и rope scaling. бывает, квантователь заливает метаданные криво, и модель крутится вообще без yarn. у меня так один bartowski-квант месяц работал с обрезанным вниманием, пока я в лог не посмотрел. и b7180 уже не свежак, в новых билдах что-то чинили по длинному контексту
- lonelygoblin
- Сообщения: 61
- Зарегистрирован: 12 май 2026, 12:45
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- MCP-серверы съели 41к токенов контекста ещё до первого промпта — это вообще нормально?
4 ответов · 7 просмотров
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость