Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?

Теги: #Claude Code
Рейтинг: 43.4% · 11 голосов
Программирование с искусственным интеллектом: Claude Code, Cursor, GitHub Copilot, agentic coding, протокол MCP, генерация и ревью кода, автоматизация рабочего процесса разработчика.
Ответить
Аватара пользователя
anna_x
Сообщения: 1
Зарегистрирован: Вт май 26, 2026 9:48 pm

Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?

Сообщение anna_x »

Везде пишут CC лидирует: 80.8% на SWE-bench Verified, контекст до 1М токенов, лучший для мультифайловых задач. Кто на больших кодбазах реально гонял — это в работе ощущается или цифры ради цифр?
👍1 ❤️ 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — bytedocker1834
На своём опыте с кодбазой ~80к строк TypeScript: контекст в 1М токенов — это не то что он читает весь одновременно полезно, а то что не приходится обрезать вручную при больших задачах. Реальный выигрыш заметен когда задача затрагивает 15-20 файлов с взаимными зависимостями — Cursor c 200k окном начинал терять края, CC держит связность дольше. Но SWE-bench это синтетика, там задачи изолированные. …
Перейти к ответу →
Аватара пользователя
polina_rust
Сообщения: 3
Зарегистрирован: Пт май 29, 2026 4:50 am

Re: Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?

Сообщение polina_rust »

Подскажите, а как быть если ошибка повторяется после перезагрузки?
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
grigory2102
Сообщения: 17
Зарегистрирован: Пн май 11, 2026 1:50 pm

Re: Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?

Сообщение grigory2102 »

На монорепе ощущается. Он реально держит связи между файлами которые Cursor терял. Но 1М контекста маркетинг немного лукавит — после compaction эффективный объём заметно меньше, в другом треде это обсуждали.
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
bytedocker1834
Сообщения: 26
Зарегистрирован: Пн май 11, 2026 4:45 pm

Re: Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?

Сообщение bytedocker1834 »

✔ Лучший ответ — сформирован автоматически
На своём опыте с кодбазой ~80к строк TypeScript: контекст в 1М токенов — это не то что он читает весь одновременно полезно, а то что не приходится обрезать вручную при больших задачах. Реальный выигрыш заметен когда задача затрагивает 15-20 файлов с взаимными зависимостями — Cursor c 200k окном начинал терять края, CC держит связность дольше. Но SWE-bench это синтетика, там задачи изолированные. На живом проекте с запутанными абстракциями и неочевидными зависимостями качество всё равно деградирует после ~100k токенов активного контекста, просто чуть позже.
👍 ❤️2 🔥 😄2 🤔1
Аватара пользователя
reactnet2320
Сообщения: 19
Зарегистрирован: Ср май 13, 2026 5:27 am

Re: Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?

Сообщение reactnet2320 »

Самый честный тест который я делал: взял задачу на рефакторинг модуля авторизации с затрагиванием 8 файлов, middleware, тестами и миграцией. CC прошёл её без промежуточных уточнений, сам нашёл все места где надо менять интерфейс. Cursor с тем же промптом попросил уточнения трижды и всё равно пропустил один из middleware. Разница реальная, но не в 10 раз — скорее в 1.5-2 раза по итоговому качеству на комплексных мультифайловых задачах. Для мелких однофайловых изменений оба одинаково хороши.
👍 ❤️2 🔥1 😄 🤔
Аватара пользователя
semyon_core
Сообщения: 14
Зарегистрирован: Пн май 11, 2026 3:55 am

Re: Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?

Сообщение semyon_core »

Cursor выигрывает по DX: автокомплит Supermaven с 72% acceptance, Composer для визуального мультифайл-эдитинга. CC выигрывает по тяжёлым задачам. Я держу оба и не парюсь, у каждого своя ниша.
👍2 ❤️ 🔥 😄 🤔
Аватара пользователя
natalia_dev
Сообщения: 2
Зарегистрирован: Чт май 14, 2026 2:19 pm

Re: Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?

Сообщение natalia_dev »

А есть смысл это делать в проде или только для локалки подходит?
👍1 ❤️ 🔥1 😄 🤔3
Ответить
Поделиться темой: ✈ Telegram VK
Похожие запросы: как уменьшить расход токенов claude

Вернуться в «AI-ассистированная разработка»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость