Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах

Рейтинг: 61% · 6 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
Kireeich
Сообщения: 20
Зарегистрирован: 14 май 2026, 10:49

Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах

Сообщение Kireeich »

Понадобилось сделать ревью легаси проекта, тыщ 60 токенов кода. Думаю, отлично, у Qwen3.6 32B заявлено 128k, влезет с запасом.

Запустил в llama.cpp, ctx 65536, kv cache q8_0, в 24 гига уместилось. И началось. По файлам из конца промпта отвечает нормально. По началу выдумывает функции, которых нет, путает названия классов между файлами. Попросил список всех эндпоинтов, выдал половину и три несуществующих.

То есть формально контекст 128k, а реально после 40k это уже не работа, а лотерея. Это у всех так или я что-то делаю не так?
👍 ❤️1 🔥2 😄1 🤔
✔ Лучший ответ сформирован автоматически — kardanger
postgres_andy писал(а):нарежь по модулям и гоняй частями, или RAG прикрути RAG по коду это отдельный вид боли. эмбеддинги тащат похожие по словам куски, а не связанные по логике, вызов в одном модуле, определение в другом, ретривер этого не видит. по частям да, рабочий вариант, только теряются кросс-файловые косяки, ради которых ревью всего проекта и затевалось
Перейти к ответу →
Аватара пользователя
depechie
Сообщения: 67
Зарегистрирован: 11 май 2026, 11:32

Re: Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах

Сообщение depechie »

это у всех так. заявленный и эффективный контекст это две разные цифры. на RULER почти все опенсорс модели сыпятся после половины заявленного. а needle in haystack, который все красиво проходят, это тупо поиск иголки, к реальному рассуждению по всему контексту отношения не имеет. 128k в карточке означает, что rope позволяет, а не что модель умеет
👍 ❤️1 🔥1 😄1 🤔
Аватара пользователя
bunmaker
Сообщения: 40
Зарегистрирован: 11 май 2026, 23:26

Re: Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах

Сообщение bunmaker »

Kireeich писал(а):ctx 65536, kv cache q8_0
вот это кстати усугубляет. квантование кэша на длинном контексте заметно бьет по качеству, причем K чувствительнее чем V. попробуй K в f16, V в q8_0, у меня на 64к разница видна невооруженным глазом. да, VRAM жалко, но ты же не для красоты контекст набивал
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
postgres_andy
Сообщения: 17
Зарегистрирован: 15 май 2026, 08:40

Re: Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах

Сообщение postgres_andy »

а зачем пихать 60к кода одним куском? нарежь по модулям и гоняй частями, или RAG прикрути
👍1 ❤️1 🔥1 😄 🤔1
Аватара пользователя
kardanger
Сообщения: 17
Зарегистрирован: 21 май 2026, 05:15

Re: Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах

Сообщение kardanger »

✔ Лучший ответ — сформирован автоматически
postgres_andy писал(а):нарежь по модулям и гоняй частями, или RAG прикрути
RAG по коду это отдельный вид боли. эмбеддинги тащат похожие по словам куски, а не связанные по логике, вызов в одном модуле, определение в другом, ретривер этого не видит. по частям да, рабочий вариант, только теряются кросс-файловые косяки, ради которых ревью всего проекта и затевалось
👍 ❤️ 🔥1 😄 🤔2
Аватара пользователя
async2025
Сообщения: 44
Зарегистрирован: 13 май 2026, 02:57

Re: Заявленные 128k контекста это сказки, после 40k модель тупеет на глазах

Сообщение async2025 »

@kardanger, чисто по железу добавлю, почему все сидят на 32k и не жужжат. kv кэш у 32B на полных 128k это под 16 гигов даже в q8, в f16 за 30. вторая видеокарта чисто под кэш, ага. вендоры рисуют 128k в спеках, а реально гонять это есть возможность у полутора человек. я для длинных доков делаю прогон кусками с конспектом каждого, потом финальный вопрос по конспектам. скучно, зато стабильнее любого длинного контекста
👍1 ❤️1 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость