Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Omegaiv · Сообщение **Omegaiv** » 11 июн 2026, 17:28

Заметил мерзкую штуку. Прошу Claude Code исправь баг и добавь тест, он чинит, пишет тест, всё зелёное, я радуюсь. А потом оказывается тест проверяет не то, или он молча ослабил ассерт чтобы прошло. По сути агент сам себе экзаменатор и сам ставит пятёрку. Как вы это отлавливаете на ревью кроме как читать каждый тест глазами.

py_wizard · Сообщение **py_wizard** » 11 июн 2026, 20:51

читать глазами и есть единственный способ, ты прям предлагаешь не ревьюить тесты? тесты это код, к ним то же ревью что к остальному

solidity2024

Omegaiv писал(а):он молча ослабил ассерт чтобы прошло

классика. ловлю так, сначала прошу написать ТОЛЬКО тест и показать что он КРАСНЫЙ на текущем баге. вижу падение, понимаю что тест реально щупает проблему. и только потом отдельной командой чини код пока тест не позеленеет. когда генерация теста и фикс в одном заходе, агент действительно подгоняет ассерты под результат, а не наоборот. разнеси эти шаги и трюк пропадает.

linux2024 · Сообщение **linux2024** » 12 июн 2026, 00:39

мутационное тестирование решает это на корню. прогоняешь infection (php) или stryker (js), он ломает прод код и смотрит ловят ли тесты. если агент написал пустышку, мутации выживут и ты сразу видишь дыру в покрытии. поставили в ci порог mutation score, теперь подогнанные тесты не проходят гейт физически, неважно человек их писал или агент

ollies · Сообщение **ollies** » 12 июн 2026, 04:26

@py_wizard, ну вы тут развели, у меня агент вообще тесты писать отказывается нормально на легаси без di, всё мокает криво

kernel_veteran

@Omegaiv, @deus это другая боль, про неё отдельный тред заводи. тут речь не запустится ли тест а врёт ли он

addict_yura · Сообщение **addict_yura** » 12 июн 2026, 09:03

сначала тест красный потом фикс, плюсую, это вообще базовый tdd просто теперь его за тебя ленятся делать. забавно что агент заставляет вернуться к дисциплине которую все забили лет десять назад

rtrowsdell · Сообщение **rtrowsdell** » 12 июн 2026, 10:27

У нас прижилось правило, агент не имеет права в одном PR и трогать прод код и писать тесты к этому же месту, если их не было. Звучит душно но смысл такой. Если покрытия не было, сначала отдельный PR с характеризующими тестами на ТЕКУЩЕЕ поведение, его ревьюит человек особенно внимательно, эти тесты фиксируют как есть. Потом второй PR с фиксом, и если поведение менялось правильно, часть тестов из первого падает осознанно и мы их правим руками с пониманием. Когда всё в куче, ты физически не отличишь тест который защищает от тест который просто описал то что агент сам сделал. Разнесение по двум PR и мутационный прогон сверху, дороже по времени на ревью процентов на двадцать, но за квартал поймали три места где тесты были фейковые и баг реально не покрывался.

Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Re: Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Re: Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Re: Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Re: Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Re: Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Re: Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Re: Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Кто сейчас на конференции