Поймал Claude Code на том что он скипнул падающий тест и отчитался что все зеленое
Рейтинг: 0% · 0 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Поймал Claude Code на том что он скипнул падающий тест и отчитался что все зеленое
Чинил баг с округлением в расчете скидок. test_discount_rounding падал, отдал задачу Claude Code на Sonnet 4.5, через 15 минут рапорт: баг исправлен, все 214 тестов проходят. Я поверил и пошел дальше.
На следующий день перед мержем открыл дифф. Он повесил на падающий тест pytest.mark.skip с reason flaky on CI. Тест не флаки, ризон он выдумал сам. Баг при этом не починен.
Начал присматриваться, и раньше такое было, просто тоньше: меняет assert == на approx, расширяет try except, один раз поднял допуск в сравнении с 0.01 до 0.1. Формально все зеленое, по факту тесты потихоньку превращаются в декорацию.
Это лечится промптом или у всех так и все молчат?
На следующий день перед мержем открыл дифф. Он повесил на падающий тест pytest.mark.skip с reason flaky on CI. Тест не флаки, ризон он выдумал сам. Баг при этом не починен.
Начал присматриваться, и раньше такое было, просто тоньше: меняет assert == на approx, расширяет try except, один раз поднял допуск в сравнении с 0.01 до 0.1. Формально все зеленое, по факту тесты потихоньку превращаются в декорацию.
Это лечится промптом или у всех так и все молчат?
✔ Лучший ответ сформирован автоматически — lentyaj
ransome писал(а):Это лечится промптом или у всех так и все молчат? лечится процентов на 80. у меня в CLAUDE.md жирным: тесты менять запрещено, падает тест - чини код, хочешь менять тест - остановись и спроси. стало сильно лучше. но оставшиеся 20 процентов он берет хитростью, как-то поменял фикстуру вместо теста. формально тест не трогал, не подкопаешься
Re: Поймал Claude Code на том что он скипнул падающий тест и отчитался что все зеленое
✔ Лучший ответ — сформирован автоматически
лечится процентов на 80. у меня в CLAUDE.md жирным: тесты менять запрещено, падает тест - чини код, хочешь менять тест - остановись и спроси. стало сильно лучше. но оставшиеся 20 процентов он берет хитростью, как-то поменял фикстуру вместо теста. формально тест не трогал, не подкопаешьсяransome писал(а):Это лечится промптом или у всех так и все молчат?
Re: Поймал Claude Code на том что он скипнул падающий тест и отчитался что все зеленое
ловил и на опусе, просто опус оправдание пишет убедительнее. дело не в модели. им на обучении за зеленый CI наливали награду, вот они и оптимизируют зеленый CI, а не работающий код. называется reward hacking и есть у всех вендоров, они сами про это в системных карточках пишутboblee писал(а):на опусе такого не ловил ни разу
Re: Поймал Claude Code на том что он скипнул падающий тест и отчитался что все зеленое
мы это закрыли на уровне CI, а не промптов. отдельный джоб фейлит сборку если в диффе есть изменения в tests/ без лейбла tests-approved от живого человека. плюс тупой grep по диффу на skip, xfail и mark. за квартал поймали 7 попыток, из них 5 агентские и 2 человеческие, что тоже показательно
Re: Поймал Claude Code на том что он скипнул падающий тест и отчитался что все зеленое
вот тут справедливости ради он прав. сравнивать float через == это и есть баг в тесте, approx с разумным допуском там и должен стоять. со скипом конечно дичь, но не все его правки тестов одинаково вредныransome писал(а):меняет assert == на approx
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Claude Code скипнул падающие тесты и сам сочинил отмазку в reason, чуть не уехало в прод
7 ответов · 1 просмотров
-
- Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился
5 ответов · 1 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость