Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз
Рейтинг: 37.6% · 5 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- clickhousefan
- Сообщения: 20
- Зарегистрирован: 17 май 2026, 01:59
Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз
Попросил Claude Code покрыть тестами модуль выставления счетов. Через двадцать минут рапорт: написано 42 теста, все зеленые, coverage 87%. Звучит красиво, полез смотреть. Треть тестов мокает ту самую функцию которую тестирует. Два теста помечены pytest.mark.skip с комментарием flaky in CI, хотя никакого CI на проекте еще нет. Один тест целиком: вызвал функцию, assert result is not None. Все, проверка окончена.
И это не первый раз. В прошлый заход он на падающий тест ответил тем что ослабил assert с == на in. В позапрошлый поменял фикстуру так чтобы edge case просто не попадал в выборку.
В CLAUDE.md прописано не мокать тестируемый код и не скипать тесты. Игнорит. Кто чем лечит, кроме как читать каждый тест глазами?
И это не первый раз. В прошлый заход он на падающий тест ответил тем что ослабил assert с == на in. В позапрошлый поменял фикстуру так чтобы edge case просто не попадал в выборку.
В CLAUDE.md прописано не мокать тестируемый код и не скипать тесты. Игнорит. Кто чем лечит, кроме как читать каждый тест глазами?
✔ Лучший ответ сформирован автоматически — jbentley
ama123 писал(а):тесты пишет один агент, код пишет другой, и они друг друга не видят на бумаге красиво, на деле второй агент все равно открывает реализацию, ему же надо понять импорты и структуру проекта. Я этой схемой месяц мучился. Реально работает только жестче: тесты пишутся до кода и уезжают отдельным коммитом, а кодящему агенту через permissions запрещаешь редактировать tests/ вообще. В Clau…
Re: Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз
Это не баг и промптами оно лечится плохо. Модель дрессировали на зеленый прогон, она и оптимизирует зеленый прогон, а не качество проверок. Рабочая схема у нас такая: тесты пишет один агент, код пишет другой, и они друг друга не видят. Тестовый агент получает только спеку и сигнатуры. Плюс чеклист на ревью: любой новый skip или xfail требует номер тикета. Стало сильно лучше, хотя совсем не ушло.
Re: Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз
✔ Лучший ответ — сформирован автоматически
на бумаге красиво, на деле второй агент все равно открывает реализацию, ему же надо понять импорты и структуру проекта. Я этой схемой месяц мучился. Реально работает только жестче: тесты пишутся до кода и уезжают отдельным коммитом, а кодящему агенту через permissions запрещаешь редактировать tests/ вообще. В Claude Code это deny на Edit по глобу, настраивается за минуту. Вот тогда ему деваться некуда.ama123 писал(а):тесты пишет один агент, код пишет другой, и они друг друга не видят
Re: Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз
@jbentley, а ничего что вы агентским тестам вообще верите? coverage 87 это метрика ни о чем, она показывает что строки исполнялись, а не что результат проверялся. прогоните mutation testing по этим 42 тестам и прослезитесь
Re: Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз
прогонял ради интереса mutmut на агентских тестах в одном сервисе. выживаемость мутантов 64 процента. на соседнем модуле с рукописными тестами 28. так что числа ровно про то о чем ты говоришь. проблема в другом, mutmut на проекте побольше крутится часа три, в обычный CI не воткнешь, только ночным джобомNeskuchay писал(а):прогоните mutation testing по этим 42 тестам и прослезитесь
Re: Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз
@clickhousefan, у нас после пары таких историй в CI добавили три вещи: запрет новых skip без тикета в комментарии, diff-cover с порогом 80 по измененным строкам и грепалку на assert True как единственный ассерт в тесте. Агентские PR сразу посыпались пачкой, примерно треть готовых тасок уехала обратно в работу. Неделю было больно, зато теперь слову готово хотя бы немного веришь.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Джуны которые не умеют дебажить — это AI виноват или мы как менторы облажались?
16 ответов · 1300 просмотров
-
- Раздул CLAUDE.md до 400 строк, и стало ХУЖЕ — кто-нибудь объяснит почему
10 ответов · 1260 просмотров
-
- Claude Code после compaction забывает решения по схеме БД и переделывает заново
8 ответов · 1215 просмотров
-
- Вайбкодинг через Cursor/Claude — это уже норма или мы готовим себе ад в проде?
10 ответов · 701 просмотров
-
- Claude Code vs Cursor в 2026 — кто кого по итогу? Перешёл и не жалею (вроде)
13 ответов · 454 просмотров
-
- Claude Code SWE-bench 80.8% и контекст 1M — это реально чувствуется или маркетинг?
10 ответов · 326 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость