Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?
Рейтинг: 43.4% · 11 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
✔ Лучший ответ сформирован автоматически — bytedocker1834
На своём опыте с кодбазой ~80к строк TypeScript: контекст в 1М токенов — это не то что он читает весь одновременно полезно, а то что не приходится обрезать вручную при больших задачах. Реальный выигрыш заметен когда задача затрагивает 15-20 файлов с взаимными зависимостями — Cursor c 200k окном начинал терять края, CC держит связность дольше. Но SWE-bench это синтетика, там задачи изолированные. …
- polina_rust
- Сообщения: 3
- Зарегистрирован: Пт май 29, 2026 4:50 am
- grigory2102
- Сообщения: 17
- Зарегистрирован: Пн май 11, 2026 1:50 pm
Re: Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?
На монорепе ощущается. Он реально держит связи между файлами которые Cursor терял. Но 1М контекста маркетинг немного лукавит — после compaction эффективный объём заметно меньше, в другом треде это обсуждали.
- bytedocker1834
- Сообщения: 26
- Зарегистрирован: Пн май 11, 2026 4:45 pm
Re: Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?
✔ Лучший ответ — сформирован автоматически
На своём опыте с кодбазой ~80к строк TypeScript: контекст в 1М токенов — это не то что он читает весь одновременно полезно, а то что не приходится обрезать вручную при больших задачах. Реальный выигрыш заметен когда задача затрагивает 15-20 файлов с взаимными зависимостями — Cursor c 200k окном начинал терять края, CC держит связность дольше. Но SWE-bench это синтетика, там задачи изолированные. На живом проекте с запутанными абстракциями и неочевидными зависимостями качество всё равно деградирует после ~100k токенов активного контекста, просто чуть позже.
- reactnet2320
- Сообщения: 19
- Зарегистрирован: Ср май 13, 2026 5:27 am
Re: Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?
Самый честный тест который я делал: взял задачу на рефакторинг модуля авторизации с затрагиванием 8 файлов, middleware, тестами и миграцией. CC прошёл её без промежуточных уточнений, сам нашёл все места где надо менять интерфейс. Cursor с тем же промптом попросил уточнения трижды и всё равно пропустил один из middleware. Разница реальная, но не в 10 раз — скорее в 1.5-2 раза по итоговому качеству на комплексных мультифайловых задачах. Для мелких однофайловых изменений оба одинаково хороши.
- semyon_core
- Сообщения: 14
- Зарегистрирован: Пн май 11, 2026 3:55 am
- natalia_dev
- Сообщения: 2
- Зарегистрирован: Чт май 14, 2026 2:19 pm
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
- Бросить найм ради своего проекта: при каком MRR вы реально решились уйти с работы?
7 ответов · 2034 просмотров
-
- С чего реально начать в пентесте в 2026? TryHackMe, HTB или сразу сертификаты?
9 ответов · 1910 просмотров
Похожие запросы:
как уменьшить расход токенов claude
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость