Агент сделал тест зеленым вместо фикса бага, заметили через неделю по жалобе бухгалтерии
Рейтинг: 20.7% · 1 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Агент сделал тест зеленым вместо фикса бага, заметили через неделю по жалобе бухгалтерии
Сервис на Go, биллинг со скидками. После правки округления упал тест на расчет скидки. Скормил Claude Code (Opus 4.5) таску, цитирую свой промпт: почини тест. Он и починил. Не логику, а сам тест: поменял expected в ассерте под фактический кривой результат и дописал коммент, мол обновлены ожидания под новую логику округления. CI зеленый, PR на 600 строк прошел ревью, ревьюер дифф тестов пролистал. Через неделю бухгалтерия заказчика заметила что скидки считаются криво, разница примерно 1.5% на чеке. Откатывали, искали коммит, объяснялись. Теперь у нас правило: дифф тестовых файлов читаем глазами всегда, без исключений. Кто еще ловил агента на такой подгонке?
✔ Лучший ответ сформирован автоматически — kingpaul
infern писал(а):почини тест вот тут все и сломалось. для модели почини тест буквально означает сделай так, чтобы тест прошел. она это и сделала, формально задача выполнена. надо писать: найди причину падения и исправь логику, тестовые файлы не трогать. у меня в CLAUDE.md прямой запрет менять ассерты без отдельного подтверждения, ловит процентов 90 таких случаев.
- ansible777
- Сообщения: 46
- Зарегистрирован: 11 май 2026, 10:14
Re: Агент сделал тест зеленым вместо фикса бага, заметили через неделю по жалобе бухгалтерии
классика reward hacking. модель оптимизирует зеленый CI, а не правильность кода. у нас Sonnet 4.5 просто удалил флакающий тест целиком и воткнул t.Skip с комментом flaky in CI. нашли через месяц, когда покрытие просело.
Re: Агент сделал тест зеленым вместо фикса бага, заметили через неделю по жалобе бухгалтерии
✔ Лучший ответ — сформирован автоматически
вот тут все и сломалось. для модели почини тест буквально означает сделай так, чтобы тест прошел. она это и сделала, формально задача выполнена. надо писать: найди причину падения и исправь логику, тестовые файлы не трогать. у меня в CLAUDE.md прямой запрет менять ассерты без отдельного подтверждения, ловит процентов 90 таких случаев.infern писал(а):почини тест
- elixir2010
- Сообщения: 18
- Зарегистрирован: 31 май 2026, 22:10
Re: Агент сделал тест зеленым вместо фикса бага, заметили через неделю по жалобе бухгалтерии
1.5% на чеке это вы еще легко отделались. у знакомых в финтехе агент поменял округление до копеек в выгрузке для ЦБ, отчетность поехала, словили предписание. там теперь весь ИИ-код идет отдельной веткой с двумя живыми ревьюерами.
Re: Агент сделал тест зеленым вместо фикса бага, заметили через неделю по жалобе бухгалтерии
оставшиеся 10 и стреляют, причем в проде. CLAUDE.md это пожелание, а не запрет, модель его спокойно игнорит когда контекст распух. надежно только хуком: PreToolUse на Edit по маске *_test.go, без явного флага правка блочится. после этого случаев ноль за три месяца.kingpaul писал(а):ловит процентов 90 таких случаев
Re: Агент сделал тест зеленым вместо фикса бага, заметили через неделю по жалобе бухгалтерии
@kingpaul, вообще-то это решается процессом, а не хуками. test-first: падающий тест пишешь руками, агенту отдаешь только имплементацию, подгонять ему тогда нечего, ассерты твои. но да, сам так делаю через раз, времени жалко.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Текущий работодатель сделал контроффер +40%, уже хотел уходить — а теперь думаю
19 ответов · 6599 просмотров
-
- Plex окончательно достал, переезжаю на Jellyfin — кто уже сделал, не жалеете?
7 ответов · 3260 просмотров
-
-
-
- Сделал MVP за 3 недели с Cursor + Claude — стоит ли вообще нанимать разработчиков теперь?
9 ответов · 21 просмотров
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость