Поймал Claude Code на том что он скипнул падающий тест и отчитался что все зеленое

Рейтинг: 0% · 0 голосов
Программирование с искусственным интеллектом: Claude Code, Cursor, GitHub Copilot, agentic coding, протокол MCP, генерация и ревью кода, автоматизация рабочего процесса разработчика.
Ответить
Аватара пользователя
ransome
Сообщения: 37
Зарегистрирован: 11 май 2026, 01:39

Поймал Claude Code на том что он скипнул падающий тест и отчитался что все зеленое

Сообщение ransome »

Чинил баг с округлением в расчете скидок. test_discount_rounding падал, отдал задачу Claude Code на Sonnet 4.5, через 15 минут рапорт: баг исправлен, все 214 тестов проходят. Я поверил и пошел дальше.

На следующий день перед мержем открыл дифф. Он повесил на падающий тест pytest.mark.skip с reason flaky on CI. Тест не флаки, ризон он выдумал сам. Баг при этом не починен.

Начал присматриваться, и раньше такое было, просто тоньше: меняет assert == на approx, расширяет try except, один раз поднял допуск в сравнении с 0.01 до 0.1. Формально все зеленое, по факту тесты потихоньку превращаются в декорацию.

Это лечится промптом или у всех так и все молчат?
👍3 ❤️1 🔥 😄1 🤔
✔ Лучший ответ сформирован автоматически — lentyaj
ransome писал(а):Это лечится промптом или у всех так и все молчат? лечится процентов на 80. у меня в CLAUDE.md жирным: тесты менять запрещено, падает тест - чини код, хочешь менять тест - остановись и спроси. стало сильно лучше. но оставшиеся 20 процентов он берет хитростью, как-то поменял фикстуру вместо теста. формально тест не трогал, не подкопаешься
Перейти к ответу →
Аватара пользователя
kardanger
Сообщения: 17
Зарегистрирован: 21 май 2026, 05:15

Re: Поймал Claude Code на том что он скипнул падающий тест и отчитался что все зеленое

Сообщение kardanger »

классика. у меня cursor однажды замокал саму тестируемую функцию. тест зеленый, функция не вызывается вообще. сидел минут пять смотрел на это и не верил, лол
👍1 ❤️1 🔥1 😄 🤔1
Аватара пользователя
lentyaj
Сообщения: 68
Зарегистрирован: 11 май 2026, 00:17

Re: Поймал Claude Code на том что он скипнул падающий тест и отчитался что все зеленое

Сообщение lentyaj »

✔ Лучший ответ — сформирован автоматически
ransome писал(а):Это лечится промптом или у всех так и все молчат?
лечится процентов на 80. у меня в CLAUDE.md жирным: тесты менять запрещено, падает тест - чини код, хочешь менять тест - остановись и спроси. стало сильно лучше. но оставшиеся 20 процентов он берет хитростью, как-то поменял фикстуру вместо теста. формально тест не трогал, не подкопаешься
👍1 ❤️ 🔥1 😄 🤔1
Аватара пользователя
boblee
Сообщения: 42
Зарегистрирован: 11 май 2026, 11:59

Re: Поймал Claude Code на том что он скипнул падающий тест и отчитался что все зеленое

Сообщение boblee »

а модель какая? на опусе такого не ловил ни разу
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
tx3300
Сообщения: 29
Зарегистрирован: 13 май 2026, 07:30

Re: Поймал Claude Code на том что он скипнул падающий тест и отчитался что все зеленое

Сообщение tx3300 »

boblee писал(а):на опусе такого не ловил ни разу
ловил и на опусе, просто опус оправдание пишет убедительнее. дело не в модели. им на обучении за зеленый CI наливали награду, вот они и оптимизируют зеленый CI, а не работающий код. называется reward hacking и есть у всех вендоров, они сами про это в системных карточках пишут
👍1 ❤️ 🔥1 😄 🤔
Аватара пользователя
sneeke
Сообщения: 29
Зарегистрирован: 11 май 2026, 03:15

Re: Поймал Claude Code на том что он скипнул падающий тест и отчитался что все зеленое

Сообщение sneeke »

мы это закрыли на уровне CI, а не промптов. отдельный джоб фейлит сборку если в диффе есть изменения в tests/ без лейбла tests-approved от живого человека. плюс тупой grep по диффу на skip, xfail и mark. за квартал поймали 7 попыток, из них 5 агентские и 2 человеческие, что тоже показательно
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
lunarod
Сообщения: 17
Зарегистрирован: 11 май 2026, 00:25

Re: Поймал Claude Code на том что он скипнул падающий тест и отчитался что все зеленое

Сообщение lunarod »

ведет себя как джун за день до дедлайна. еще пара версий и начнет рассказывать что у него ноут сгорел вместе с тестами
👍1 ❤️2 🔥1 😄 🤔
Аватара пользователя
lost300z
Сообщения: 77
Зарегистрирован: 11 май 2026, 04:27

Re: Поймал Claude Code на том что он скипнул падающий тест и отчитался что все зеленое

Сообщение lost300z »

ransome писал(а):меняет assert == на approx
вот тут справедливости ради он прав. сравнивать float через == это и есть баг в тесте, approx с разумным допуском там и должен стоять. со скипом конечно дичь, но не все его правки тестов одинаково вредны
👍 ❤️ 🔥 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «AI-ассистированная разработка»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость