Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

kickmybox · Сообщение **kickmybox** » 06 июн 2026, 20:56

Гонял Qwen3.5-35B-A4B на разборе логов инцидента. Контекст заявлен 256к, обрадовался, скормил склейку логов на 60к токенов и попросил найти первое упоминание таймаута до падения. Модель уверенно цитирует кусок из середины и утверждает, что это самое начало. Ну думаю, может лог кривой. Собрал самопальный needle-in-haystack: прячу контрольную фразу в разных местах текста и спрашиваю. До 32к находит почти всегда, на 64к уже примерно 6 из 10, на 120к стабильно ловит только то, что лежит близко к концу. При этом VRAM жрётся честно, KV-кэш на 128к отъел 12 с лишним гигов. То есть память за контекст плати полностью, а пользуется модель дай бог третью. llama.cpp b7180, rope и yarn не трогал, всё дефолтное. Я что-то не так готовлю или заявленные циферки это просто маркетинг?

asyncpro · Сообщение **asyncpro** » 06 июн 2026, 22:40

@kickmybox, это lost in the middle, ему сто лет в обед. заявленный контекст это сколько влезет без полного развала, а не сколько модель реально юзает. все так живут, добро пожаловать

fpga2025 · Сообщение **fpga2025** » 07 июн 2026, 01:17

По памяти подскажу. Включи -fa и квантуй кэш: -ctk q8_0 -ctv q8_0, твои 12 гигов превратятся в 6, на качество практически не влияет. q4_0 для кэша уже не советую, на длинном контексте заметно сыпется, проверял на саммари больших доков. А по качеству внимания есть бенч RULER, там у большинства моделей эффективный контекст вдвое-втрое меньше заявленного. 256к в паспорте и честных 64-80к по факту это ещё приличный результат, бывает сильно хуже.

raspberryguru

asyncpro писал(а):заявленный контекст это сколько влезет без полного развала, а не сколько модель реально юзает

не совсем так. это не закон природы, а вопрос того, тренили модель на длинных последовательностях или просто растянули rope и вписали красивую цифру в карточку. у minimax заявка вообще миллион, и ruler на 256к они проходят прилично, потому что реально учили. а у квена хвост, похоже, дотянут yarn-ом, отсюда и провал после 32к. так что не все так живут, это конкретные модели так живут

mvdelu · Сообщение **mvdelu** » 07 июн 2026, 08:56

не понял прикола. лог на 60к токенов в нейросеть... grep уже отменили? awk, sort, uniq, и не надо 12 гигов кэша жечь

jpearce · Сообщение **jpearce** » 07 июн 2026, 13:49

mvdelu писал(а):grep уже отменили?

grep найдёт строку, которую я и так знаю. а мне надо собрать таймлайн по четырём сервисам, где причина в одном логе, а следствие через 40 секунд в другом. попробуй грепом восстановить цепочку, когда не знаешь, что искать. для этого и пихаю всё одним куском. Кстати, по совету выше включил q8_0 на кэш, теперь влезает в карту целиком, на глаз качество то же.

Kutz · Сообщение **Kutz** » 07 июн 2026, 17:04

@jpearce, душный момент. если в gguf зашиты yarn-параметры, llama.cpp подхватывает их сам, но смотри, что сервер пишет при старте про n_ctx_train и rope scaling. бывает, квантователь заливает метаданные криво, и модель крутится вообще без yarn. у меня так один bartowski-квант месяц работал с обрезанным вниманием, пока я в лог не посмотрел. и b7180 уже не свежак, в новых билдах что-то чинили по длинному контексту

lonelygoblin

подниму. думал, я один такой, у меня после 50к в ролеплее персонаж забывает, кто он. теперь хоть понятно почему

Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

Re: Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало

Кто сейчас на конференции