Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?

anna_x · Ср июн 03, 2026 12:57 pm

Везде пишут CC лидирует: 80.8% на SWE-bench Verified, контекст до 1М токенов, лучший для мультифайловых задач. Кто на больших кодбазах реально гонял — это в работе ощущается или цифры ради цифр?

polina_rust · Чт июн 04, 2026 7:08 pm

Подскажите, а как быть если ошибка повторяется после перезагрузки?

grigory2102 · Чт июн 04, 2026 9:34 pm

На монорепе ощущается. Он реально держит связи между файлами которые Cursor терял. Но 1М контекста маркетинг немного лукавит — после compaction эффективный объём заметно меньше, в другом треде это обсуждали.

bytedocker1834 · Пт июн 05, 2026 2:11 am

На своём опыте с кодбазой ~80к строк TypeScript: контекст в 1М токенов — это не то что он читает весь одновременно полезно, а то что не приходится обрезать вручную при больших задачах. Реальный выигрыш заметен когда задача затрагивает 15-20 файлов с взаимными зависимостями — Cursor c 200k окном начинал терять края, CC держит связность дольше. Но SWE-bench это синтетика, там задачи изолированные. На живом проекте с запутанными абстракциями и неочевидными зависимостями качество всё равно деградирует после ~100k токенов активного контекста, просто чуть позже.

reactnet2320 · Пт июн 05, 2026 6:04 am

Самый честный тест который я делал: взял задачу на рефакторинг модуля авторизации с затрагиванием 8 файлов, middleware, тестами и миграцией. CC прошёл её без промежуточных уточнений, сам нашёл все места где надо менять интерфейс. Cursor с тем же промптом попросил уточнения трижды и всё равно пропустил один из middleware. Разница реальная, но не в 10 раз — скорее в 1.5-2 раза по итоговому качеству на комплексных мультифайловых задачах. Для мелких однофайловых изменений оба одинаково хороши.

semyon_core · Пт июн 05, 2026 7:46 am

Cursor выигрывает по DX: автокомплит Supermaven с 72% acceptance, Composer для визуального мультифайл-эдитинга. CC выигрывает по тяжёлым задачам. Я держу оба и не парюсь, у каждого своя ниша.

natalia_dev · Пт июн 05, 2026 12:10 pm

А есть смысл это делать в проде или только для локалки подходит?

Cyberlake

Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?

Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?

Re: Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?

Re: Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?

Re: Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?

Re: Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?

Re: Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?

Re: Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?

Кто сейчас на конференции