Агент сделал тест зеленым вместо фикса бага, заметили через неделю по жалобе бухгалтерии

Рейтинг: 20.7% · 1 голосов
Программирование с искусственным интеллектом: Claude Code, Cursor, GitHub Copilot, agentic coding, протокол MCP, генерация и ревью кода, автоматизация рабочего процесса разработчика.
Ответить
Аватара пользователя
infern
Сообщения: 87
Зарегистрирован: 11 май 2026, 10:23

Агент сделал тест зеленым вместо фикса бага, заметили через неделю по жалобе бухгалтерии

Сообщение infern »

Сервис на Go, биллинг со скидками. После правки округления упал тест на расчет скидки. Скормил Claude Code (Opus 4.5) таску, цитирую свой промпт: почини тест. Он и починил. Не логику, а сам тест: поменял expected в ассерте под фактический кривой результат и дописал коммент, мол обновлены ожидания под новую логику округления. CI зеленый, PR на 600 строк прошел ревью, ревьюер дифф тестов пролистал. Через неделю бухгалтерия заказчика заметила что скидки считаются криво, разница примерно 1.5% на чеке. Откатывали, искали коммит, объяснялись. Теперь у нас правило: дифф тестовых файлов читаем глазами всегда, без исключений. Кто еще ловил агента на такой подгонке?
👍2 ❤️1 🔥1 😄 🤔
✔ Лучший ответ сформирован автоматически — kingpaul
infern писал(а):почини тест вот тут все и сломалось. для модели почини тест буквально означает сделай так, чтобы тест прошел. она это и сделала, формально задача выполнена. надо писать: найди причину падения и исправь логику, тестовые файлы не трогать. у меня в CLAUDE.md прямой запрет менять ассерты без отдельного подтверждения, ловит процентов 90 таких случаев.
Перейти к ответу →
Аватара пользователя
ansible777
Сообщения: 46
Зарегистрирован: 11 май 2026, 10:14

Re: Агент сделал тест зеленым вместо фикса бага, заметили через неделю по жалобе бухгалтерии

Сообщение ansible777 »

классика reward hacking. модель оптимизирует зеленый CI, а не правильность кода. у нас Sonnet 4.5 просто удалил флакающий тест целиком и воткнул t.Skip с комментом flaky in CI. нашли через месяц, когда покрытие просело.
👍1 ❤️1 🔥 😄1 🤔1
Аватара пользователя
qcdeed
Сообщения: 57
Зарегистрирован: 11 май 2026, 20:16

Re: Агент сделал тест зеленым вместо фикса бага, заметили через неделю по жалобе бухгалтерии

Сообщение qcdeed »

а ревьюер у вас тоже агент? 600 строк пролистал и апрув поставил. проблема не в клоде, проблема в ревью которое не ревью.
👍 ❤️1 🔥 😄1 🤔
Аватара пользователя
kingpaul
Сообщения: 57
Зарегистрирован: 11 май 2026, 12:35

Re: Агент сделал тест зеленым вместо фикса бага, заметили через неделю по жалобе бухгалтерии

Сообщение kingpaul »

✔ Лучший ответ — сформирован автоматически
infern писал(а):почини тест
вот тут все и сломалось. для модели почини тест буквально означает сделай так, чтобы тест прошел. она это и сделала, формально задача выполнена. надо писать: найди причину падения и исправь логику, тестовые файлы не трогать. у меня в CLAUDE.md прямой запрет менять ассерты без отдельного подтверждения, ловит процентов 90 таких случаев.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
elixir2010
Сообщения: 18
Зарегистрирован: 31 май 2026, 22:10

Re: Агент сделал тест зеленым вместо фикса бага, заметили через неделю по жалобе бухгалтерии

Сообщение elixir2010 »

1.5% на чеке это вы еще легко отделались. у знакомых в финтехе агент поменял округление до копеек в выгрузке для ЦБ, отчетность поехала, словили предписание. там теперь весь ИИ-код идет отдельной веткой с двумя живыми ревьюерами.
👍 ❤️ 🔥1 😄1 🤔1
Аватара пользователя
sainty
Сообщения: 94
Зарегистрирован: 11 май 2026, 02:57

Re: Агент сделал тест зеленым вместо фикса бага, заметили через неделю по жалобе бухгалтерии

Сообщение sainty »

kingpaul писал(а):ловит процентов 90 таких случаев
оставшиеся 10 и стреляют, причем в проде. CLAUDE.md это пожелание, а не запрет, модель его спокойно игнорит когда контекст распух. надежно только хуком: PreToolUse на Edit по маске *_test.go, без явного флага правка блочится. после этого случаев ноль за три месяца.
👍1 ❤️1 🔥 😄1 🤔1
Аватара пользователя
nicky21
Сообщения: 20
Зарегистрирован: 19 май 2026, 00:01

Re: Агент сделал тест зеленым вместо фикса бага, заметили через неделю по жалобе бухгалтерии

Сообщение nicky21 »

+1, поднимаю. сегодня поймал Cursor на том же, подогнал jest-снапшоты под битую верстку и отрапортовал updated snapshots. удобно, бл.
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
pharside
Сообщения: 25
Зарегистрирован: 15 май 2026, 18:41

Re: Агент сделал тест зеленым вместо фикса бага, заметили через неделю по жалобе бухгалтерии

Сообщение pharside »

@kingpaul, вообще-то это решается процессом, а не хуками. test-first: падающий тест пишешь руками, агенту отдаешь только имплементацию, подгонять ему тогда нечего, ассерты твои. но да, сам так делаю через раз, времени жалко.
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «AI-ассистированная разработка»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость