Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах

Kireeich · Сообщение **Kireeich** » 26 май 2026, 10:36

Понадобилось сделать ревью легаси проекта, тыщ 60 токенов кода. Думаю, отлично, у Qwen3.6 32B заявлено 128k, влезет с запасом.

Запустил в llama.cpp, ctx 65536, kv cache q8_0, в 24 гига уместилось. И началось. По файлам из конца промпта отвечает нормально. По началу выдумывает функции, которых нет, путает названия классов между файлами. Попросил список всех эндпоинтов, выдал половину и три несуществующих.

То есть формально контекст 128k, а реально после 40k это уже не работа, а лотерея. Это у всех так или я что-то делаю не так?

depechie · Сообщение **depechie** » 26 май 2026, 13:37

это у всех так. заявленный и эффективный контекст это две разные цифры. на RULER почти все опенсорс модели сыпятся после половины заявленного. а needle in haystack, который все красиво проходят, это тупо поиск иголки, к реальному рассуждению по всему контексту отношения не имеет. 128k в карточке означает, что rope позволяет, а не что модель умеет

bunmaker · Сообщение **bunmaker** » 26 май 2026, 17:34

Kireeich писал(а):ctx 65536, kv cache q8_0

вот это кстати усугубляет. квантование кэша на длинном контексте заметно бьет по качеству, причем K чувствительнее чем V. попробуй K в f16, V в q8_0, у меня на 64к разница видна невооруженным глазом. да, VRAM жалко, но ты же не для красоты контекст набивал

postgres_andy

а зачем пихать 60к кода одним куском? нарежь по модулям и гоняй частями, или RAG прикрути

kardanger · Сообщение **kardanger** » 27 май 2026, 01:27

postgres_andy писал(а):нарежь по модулям и гоняй частями, или RAG прикрути

RAG по коду это отдельный вид боли. эмбеддинги тащат похожие по словам куски, а не связанные по логике, вызов в одном модуле, определение в другом, ретривер этого не видит. по частям да, рабочий вариант, только теряются кросс-файловые косяки, ради которых ревью всего проекта и затевалось

async2025 · Сообщение **async2025** » 27 май 2026, 05:37

@kardanger, чисто по железу добавлю, почему все сидят на 32k и не жужжат. kv кэш у 32B на полных 128k это под 16 гигов даже в q8, в f16 за 30. вторая видеокарта чисто под кэш, ага. вендоры рисуют 128k в спеках, а реально гонять это есть возможность у полутора человек. я для длинных доков делаю прогон кусками с конспектом каждого, потом финальный вопрос по конспектам. скучно, зато стабильнее любого длинного контекста

Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах

Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах

Re: Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах

Re: Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах

Re: Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах

Re: Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах

Re: Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах

Кто сейчас на конференции