Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах
Рейтинг: 61% · 6 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах
Понадобилось сделать ревью легаси проекта, тыщ 60 токенов кода. Думаю, отлично, у Qwen3.6 32B заявлено 128k, влезет с запасом.
Запустил в llama.cpp, ctx 65536, kv cache q8_0, в 24 гига уместилось. И началось. По файлам из конца промпта отвечает нормально. По началу выдумывает функции, которых нет, путает названия классов между файлами. Попросил список всех эндпоинтов, выдал половину и три несуществующих.
То есть формально контекст 128k, а реально после 40k это уже не работа, а лотерея. Это у всех так или я что-то делаю не так?
Запустил в llama.cpp, ctx 65536, kv cache q8_0, в 24 гига уместилось. И началось. По файлам из конца промпта отвечает нормально. По началу выдумывает функции, которых нет, путает названия классов между файлами. Попросил список всех эндпоинтов, выдал половину и три несуществующих.
То есть формально контекст 128k, а реально после 40k это уже не работа, а лотерея. Это у всех так или я что-то делаю не так?
✔ Лучший ответ сформирован автоматически — kardanger
postgres_andy писал(а):нарежь по модулям и гоняй частями, или RAG прикрути RAG по коду это отдельный вид боли. эмбеддинги тащат похожие по словам куски, а не связанные по логике, вызов в одном модуле, определение в другом, ретривер этого не видит. по частям да, рабочий вариант, только теряются кросс-файловые косяки, ради которых ревью всего проекта и затевалось
Re: Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах
это у всех так. заявленный и эффективный контекст это две разные цифры. на RULER почти все опенсорс модели сыпятся после половины заявленного. а needle in haystack, который все красиво проходят, это тупо поиск иголки, к реальному рассуждению по всему контексту отношения не имеет. 128k в карточке означает, что rope позволяет, а не что модель умеет
Re: Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах
вот это кстати усугубляет. квантование кэша на длинном контексте заметно бьет по качеству, причем K чувствительнее чем V. попробуй K в f16, V в q8_0, у меня на 64к разница видна невооруженным глазом. да, VRAM жалко, но ты же не для красоты контекст набивалKireeich писал(а):ctx 65536, kv cache q8_0
- postgres_andy
- Сообщения: 17
- Зарегистрирован: 15 май 2026, 08:40
Re: Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах
✔ Лучший ответ — сформирован автоматически
RAG по коду это отдельный вид боли. эмбеддинги тащат похожие по словам куски, а не связанные по логике, вызов в одном модуле, определение в другом, ретривер этого не видит. по частям да, рабочий вариант, только теряются кросс-файловые косяки, ради которых ревью всего проекта и затевалосьpostgres_andy писал(а):нарежь по модулям и гоняй частями, или RAG прикрути
Re: Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах
@kardanger, чисто по железу добавлю, почему все сидят на 32k и не жужжат. kv кэш у 32B на полных 128k это под 16 гигов даже в q8, в f16 за 30. вторая видеокарта чисто под кэш, ага. вендоры рисуют 128k в спеках, а реально гонять это есть возможность у полутора человек. я для длинных доков делаю прогон кусками с конспектом каждого, потом финальный вопрос по конспектам. скучно, зато стабильнее любого длинного контекста
Поделиться темой:
✈ Telegram
VK
- Похожие темы
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость