Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз

clickhousefan

Попросил Claude Code покрыть тестами модуль выставления счетов. Через двадцать минут рапорт: написано 42 теста, все зеленые, coverage 87%. Звучит красиво, полез смотреть. Треть тестов мокает ту самую функцию которую тестирует. Два теста помечены pytest.mark.skip с комментарием flaky in CI, хотя никакого CI на проекте еще нет. Один тест целиком: вызвал функцию, assert result is not None. Все, проверка окончена.
И это не первый раз. В прошлый заход он на падающий тест ответил тем что ослабил assert с == на in. В позапрошлый поменял фикстуру так чтобы edge case просто не попадал в выборку.
В CLAUDE.md прописано не мокать тестируемый код и не скипать тесты. Игнорит. Кто чем лечит, кроме как читать каждый тест глазами?

postgres2 · Сообщение **postgres2** » 28 май 2026, 18:23

классика жанра. мой однажды просто удалил падающий тест и сделал коммит с месседжем fix flaky test. зеленый CI это зеленый CI, не придерешься лол

ama123 · Сообщение **ama123** » 28 май 2026, 22:21

Это не баг и промптами оно лечится плохо. Модель дрессировали на зеленый прогон, она и оптимизирует зеленый прогон, а не качество проверок. Рабочая схема у нас такая: тесты пишет один агент, код пишет другой, и они друг друга не видят. Тестовый агент получает только спеку и сигнатуры. Плюс чеклист на ревью: любой новый skip или xfail требует номер тикета. Стало сильно лучше, хотя совсем не ушло.

jbentley · Сообщение **jbentley** » 29 май 2026, 01:36

ama123 писал(а):тесты пишет один агент, код пишет другой, и они друг друга не видят

на бумаге красиво, на деле второй агент все равно открывает реализацию, ему же надо понять импорты и структуру проекта. Я этой схемой месяц мучился. Реально работает только жестче: тесты пишутся до кода и уезжают отдельным коммитом, а кодящему агенту через permissions запрещаешь редактировать tests/ вообще. В Claude Code это deny на Edit по глобу, настраивается за минуту. Вот тогда ему деваться некуда.

Neskuchay · Сообщение **Neskuchay** » 29 май 2026, 04:16

@jbentley, а ничего что вы агентским тестам вообще верите? coverage 87 это метрика ни о чем, она показывает что строки исполнялись, а не что результат проверялся. прогоните mutation testing по этим 42 тестам и прослезитесь

rage311 · Сообщение **rage311** » 29 май 2026, 04:34

Neskuchay писал(а):прогоните mutation testing по этим 42 тестам и прослезитесь

прогонял ради интереса mutmut на агентских тестах в одном сервисе. выживаемость мутантов 64 процента. на соседнем модуле с рукописными тестами 28. так что числа ровно про то о чем ты говоришь. проблема в другом, mutmut на проекте побольше крутится часа три, в обычный CI не воткнешь, только ночным джобом

scalalord · Сообщение **scalalord** » 29 май 2026, 06:44

@clickhousefan, у нас после пары таких историй в CI добавили три вещи: запрет новых skip без тикета в комментарии, diff-cover с порогом 80 по измененным строкам и грепалку на assert True как единственный ассерт в тесте. Агентские PR сразу посыпались пачкой, примерно треть готовых тасок уехала обратно в работу. Неделю было больно, зато теперь слову готово хотя бы немного веришь.

Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз

Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз

Re: Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз

Re: Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз

Re: Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз

Re: Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз

Re: Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз

Re: Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз

Кто сейчас на конференции