Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз

Рейтинг: 37.6% · 5 голосов
Программирование с искусственным интеллектом: Claude Code, Cursor, GitHub Copilot, agentic coding, протокол MCP, генерация и ревью кода, автоматизация рабочего процесса разработчика.
Ответить
Аватара пользователя
clickhousefan
Сообщения: 20
Зарегистрирован: 17 май 2026, 01:59

Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз

Сообщение clickhousefan »

Попросил Claude Code покрыть тестами модуль выставления счетов. Через двадцать минут рапорт: написано 42 теста, все зеленые, coverage 87%. Звучит красиво, полез смотреть. Треть тестов мокает ту самую функцию которую тестирует. Два теста помечены pytest.mark.skip с комментарием flaky in CI, хотя никакого CI на проекте еще нет. Один тест целиком: вызвал функцию, assert result is not None. Все, проверка окончена.
И это не первый раз. В прошлый заход он на падающий тест ответил тем что ослабил assert с == на in. В позапрошлый поменял фикстуру так чтобы edge case просто не попадал в выборку.
В CLAUDE.md прописано не мокать тестируемый код и не скипать тесты. Игнорит. Кто чем лечит, кроме как читать каждый тест глазами?
👍 ❤️2 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — jbentley
ama123 писал(а):тесты пишет один агент, код пишет другой, и они друг друга не видят на бумаге красиво, на деле второй агент все равно открывает реализацию, ему же надо понять импорты и структуру проекта. Я этой схемой месяц мучился. Реально работает только жестче: тесты пишутся до кода и уезжают отдельным коммитом, а кодящему агенту через permissions запрещаешь редактировать tests/ вообще. В Clau…
Перейти к ответу →
Аватара пользователя
postgres2
Сообщения: 66
Зарегистрирован: 11 май 2026, 17:56

Re: Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз

Сообщение postgres2 »

классика жанра. мой однажды просто удалил падающий тест и сделал коммит с месседжем fix flaky test. зеленый CI это зеленый CI, не придерешься лол
👍1 ❤️1 🔥1 😄 🤔
Аватара пользователя
ama123
Сообщения: 19
Зарегистрирован: 11 май 2026, 09:03

Re: Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз

Сообщение ama123 »

Это не баг и промптами оно лечится плохо. Модель дрессировали на зеленый прогон, она и оптимизирует зеленый прогон, а не качество проверок. Рабочая схема у нас такая: тесты пишет один агент, код пишет другой, и они друг друга не видят. Тестовый агент получает только спеку и сигнатуры. Плюс чеклист на ревью: любой новый skip или xfail требует номер тикета. Стало сильно лучше, хотя совсем не ушло.
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
jbentley
Сообщения: 20
Зарегистрирован: 24 май 2026, 17:24

Re: Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз

Сообщение jbentley »

✔ Лучший ответ — сформирован автоматически
ama123 писал(а):тесты пишет один агент, код пишет другой, и они друг друга не видят
на бумаге красиво, на деле второй агент все равно открывает реализацию, ему же надо понять импорты и структуру проекта. Я этой схемой месяц мучился. Реально работает только жестче: тесты пишутся до кода и уезжают отдельным коммитом, а кодящему агенту через permissions запрещаешь редактировать tests/ вообще. В Claude Code это deny на Edit по глобу, настраивается за минуту. Вот тогда ему деваться некуда.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
Neskuchay
Сообщения: 29
Зарегистрирован: 13 май 2026, 16:59

Re: Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз

Сообщение Neskuchay »

@jbentley, а ничего что вы агентским тестам вообще верите? coverage 87 это метрика ни о чем, она показывает что строки исполнялись, а не что результат проверялся. прогоните mutation testing по этим 42 тестам и прослезитесь
👍 ❤️ 🔥 😄 🤔1
Аватара пользователя
rage311
Сообщения: 8
Зарегистрирован: 14 май 2026, 03:27

Re: Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз

Сообщение rage311 »

Neskuchay писал(а):прогоните mutation testing по этим 42 тестам и прослезитесь
прогонял ради интереса mutmut на агентских тестах в одном сервисе. выживаемость мутантов 64 процента. на соседнем модуле с рукописными тестами 28. так что числа ровно про то о чем ты говоришь. проблема в другом, mutmut на проекте побольше крутится часа три, в обычный CI не воткнешь, только ночным джобом
👍1 ❤️2 🔥 😄 🤔1
Аватара пользователя
scalalord
Сообщения: 7
Зарегистрирован: 12 май 2026, 05:41

Re: Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз

Сообщение scalalord »

@clickhousefan, у нас после пары таких историй в CI добавили три вещи: запрет новых skip без тикета в комментарии, diff-cover с порогом 80 по измененным строкам и грепалку на assert True как единственный ассерт в тесте. Агентские PR сразу посыпались пачкой, примерно треть готовых тасок уехала обратно в работу. Неделю было больно, зато теперь слову готово хотя бы немного веришь.
👍1 ❤️ 🔥 😄2 🤔1
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «AI-ассистированная разработка»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость