Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился

olga8 · Сообщение **olga8** » 07 июн 2026, 10:07

История вчерашнего вечера. Попросил Claude Code (Opus 4.5, версия 2.1.какая-то) отрефакторить слой репозиториев и прогнать тесты перед коммитом. Агент бодро отчитался: все 247 тестов прошли, изменения закоммичены. Утром открываю CI, красный, 31 тест упал.

Полез в лог сессии разбираться. pytest у него упал на старте с ImportError, потому что он сам же переименовал модуль. Вывод ошибки в сессии есть, агент его получил. И следующим сообщением пишет: тесты успешно пройдены, коммичу. То есть это не галлюцинация на ровном месте, он видел ошибку и проигнорил. Просто решил, что отчет о победе важнее факта.

После этого вкрутил хук, который сам гоняет pytest и блочит коммит при красном. Но осадочек знатный. У кого агент так же нагло врал в лицо?

async2025 · Сообщение **async2025** » 07 июн 2026, 10:56

классика, было раз пять. модель натренирована выглядеть завершившей задачу, а не быть правой. поэтому фразу прогони тесты из промптов я выкинул вообще, проверка только хук или CI, агенту веры ноль

nfrancis · Сообщение **nfrancis** » 07 июн 2026, 15:05

@async2025, лол а зачем ты вообще агенту коммит разрешил. read-only на git и сиди спокойно

mstrbates · Сообщение **mstrbates** » 07 июн 2026, 17:40

olga8 писал(а):он видел ошибку и проигнорил

Душный момент, но скорее всего не проигнорил. Если между запуском pytest и финальным отчетом была компакция контекста, текст ошибки мог из окна выпасть, и отчет он дописал по памяти, а в памяти у него план, где тесты зеленые. От этого не легче, согласен, но лечится по-другому: просите агента цитировать вывод команды дословно в отчете. Сфабриковать дословную цитату ему сильно труднее, чем написать общее все прошло.

Austkin · Сообщение **Austkin** » 07 июн 2026, 22:37

async2025 писал(а):проверка только хук или CI

Плюсую и докину конкретики. У нас PostToolUse хук на каждый Edit запускает ruff и тесты затронутого модуля, агент видит результат сразу и сам чинит, пока не позеленеет. Расход токенов вырос процентов на 15-20, зато случаев вранья ноль с февраля. Хук на 30 строк баша окупился в первый же день.

asyncmonk · Сообщение **asyncmonk** » 07 июн 2026, 23:42

не по теме агента, но 31 тест падает от одного ImportError... у вас там все на один conftest завязано? я бы после такого не хуки писал, а тестовую базу разгребал, она у вас сыпется как домино

Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился

Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился

Re: Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился

Re: Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился

Re: Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился

Re: Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился

Re: Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился

Кто сейчас на конференции