Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Рейтинг: 52.9% · 8 голосов
Программирование с искусственным интеллектом: Claude Code, Cursor, GitHub Copilot, agentic coding, протокол MCP, генерация и ревью кода, автоматизация рабочего процесса разработчика.
Ответить
Аватара пользователя
Omegaiv
Сообщения: 8
Зарегистрирован: 20 май 2026, 21:03

Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Сообщение Omegaiv »

Заметил мерзкую штуку. Прошу Claude Code исправь баг и добавь тест, он чинит, пишет тест, всё зелёное, я радуюсь. А потом оказывается тест проверяет не то, или он молча ослабил ассерт чтобы прошло. По сути агент сам себе экзаменатор и сам ставит пятёрку. Как вы это отлавливаете на ревью кроме как читать каждый тест глазами.
👍2 ❤️2 🔥1 😄 🤔1
✔ Лучший ответ сформирован автоматически — rtrowsdell
У нас прижилось правило, агент не имеет права в одном PR и трогать прод код и писать тесты к этому же месту, если их не было. Звучит душно но смысл такой. Если покрытия не было, сначала отдельный PR с характеризующими тестами на ТЕКУЩЕЕ поведение, его ревьюит человек особенно внимательно, эти тесты фиксируют как есть. Потом второй PR с фиксом, и если поведение менялось правильно, часть тестов из …
Перейти к ответу →
Аватара пользователя
py_wizard
Сообщения: 28
Зарегистрирован: 19 май 2026, 15:41

Re: Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Сообщение py_wizard »

читать глазами и есть единственный способ, ты прям предлагаешь не ревьюить тесты? тесты это код, к ним то же ревью что к остальному
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
solidity2024
Сообщения: 40
Зарегистрирован: 11 май 2026, 02:34

Re: Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Сообщение solidity2024 »

Omegaiv писал(а):он молча ослабил ассерт чтобы прошло
классика. ловлю так, сначала прошу написать ТОЛЬКО тест и показать что он КРАСНЫЙ на текущем баге. вижу падение, понимаю что тест реально щупает проблему. и только потом отдельной командой чини код пока тест не позеленеет. когда генерация теста и фикс в одном заходе, агент действительно подгоняет ассерты под результат, а не наоборот. разнеси эти шаги и трюк пропадает.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
linux2024
Сообщения: 4
Зарегистрирован: 15 май 2026, 13:20

Re: Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Сообщение linux2024 »

мутационное тестирование решает это на корню. прогоняешь infection (php) или stryker (js), он ломает прод код и смотрит ловят ли тесты. если агент написал пустышку, мутации выживут и ты сразу видишь дыру в покрытии. поставили в ci порог mutation score, теперь подогнанные тесты не проходят гейт физически, неважно человек их писал или агент
👍1 ❤️ 🔥1 😄 🤔
Аватара пользователя
ollies
Сообщения: 33
Зарегистрирован: 11 май 2026, 16:28

Re: Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Сообщение ollies »

@py_wizard, ну вы тут развели, у меня агент вообще тесты писать отказывается нормально на легаси без di, всё мокает криво
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
kernel_veteran
Сообщения: 63
Зарегистрирован: 11 май 2026, 06:09

Re: Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Сообщение kernel_veteran »

@Omegaiv, @deus это другая боль, про неё отдельный тред заводи. тут речь не запустится ли тест а врёт ли он
👍1 ❤️ 🔥2 😄1 🤔
Аватара пользователя
addict_yura
Сообщения: 3
Зарегистрирован: 30 май 2026, 06:57

Re: Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Сообщение addict_yura »

сначала тест красный потом фикс, плюсую, это вообще базовый tdd просто теперь его за тебя ленятся делать. забавно что агент заставляет вернуться к дисциплине которую все забили лет десять назад
👍 ❤️2 🔥 😄 🤔
Аватара пользователя
rtrowsdell
Сообщения: 33
Зарегистрирован: 11 май 2026, 21:50

Re: Агент сам себе пишет тесты и сам же их подгоняет под зелёный, как ловить

Сообщение rtrowsdell »

✔ Лучший ответ — сформирован автоматически
У нас прижилось правило, агент не имеет права в одном PR и трогать прод код и писать тесты к этому же месту, если их не было. Звучит душно но смысл такой. Если покрытия не было, сначала отдельный PR с характеризующими тестами на ТЕКУЩЕЕ поведение, его ревьюит человек особенно внимательно, эти тесты фиксируют как есть. Потом второй PR с фиксом, и если поведение менялось правильно, часть тестов из первого падает осознанно и мы их правим руками с пониманием. Когда всё в куче, ты физически не отличишь тест который защищает от тест который просто описал то что агент сам сделал. Разнесение по двум PR и мутационный прогон сверху, дороже по времени на ревью процентов на двадцать, но за квартал поймали три места где тесты были фейковые и баг реально не покрывался.
👍1 ❤️ 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «AI-ассистированная разработка»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость