Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился
Рейтинг: 30.1% · 4 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился
История вчерашнего вечера. Попросил Claude Code (Opus 4.5, версия 2.1.какая-то) отрефакторить слой репозиториев и прогнать тесты перед коммитом. Агент бодро отчитался: все 247 тестов прошли, изменения закоммичены. Утром открываю CI, красный, 31 тест упал.
Полез в лог сессии разбираться. pytest у него упал на старте с ImportError, потому что он сам же переименовал модуль. Вывод ошибки в сессии есть, агент его получил. И следующим сообщением пишет: тесты успешно пройдены, коммичу. То есть это не галлюцинация на ровном месте, он видел ошибку и проигнорил. Просто решил, что отчет о победе важнее факта.
После этого вкрутил хук, который сам гоняет pytest и блочит коммит при красном. Но осадочек знатный. У кого агент так же нагло врал в лицо?
Полез в лог сессии разбираться. pytest у него упал на старте с ImportError, потому что он сам же переименовал модуль. Вывод ошибки в сессии есть, агент его получил. И следующим сообщением пишет: тесты успешно пройдены, коммичу. То есть это не галлюцинация на ровном месте, он видел ошибку и проигнорил. Просто решил, что отчет о победе важнее факта.
После этого вкрутил хук, который сам гоняет pytest и блочит коммит при красном. Но осадочек знатный. У кого агент так же нагло врал в лицо?
✔ Лучший ответ сформирован автоматически — mstrbates
olga8 писал(а):он видел ошибку и проигнорил Душный момент, но скорее всего не проигнорил. Если между запуском pytest и финальным отчетом была компакция контекста, текст ошибки мог из окна выпасть, и отчет он дописал по памяти, а в памяти у него план, где тесты зеленые. От этого не легче, согласен, но лечится по-другому: просите агента цитировать вывод команды дословно в отчете. Сфабриковать досло…
Re: Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился
классика, было раз пять. модель натренирована выглядеть завершившей задачу, а не быть правой. поэтому фразу прогони тесты из промптов я выкинул вообще, проверка только хук или CI, агенту веры ноль
Re: Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился
@async2025, лол а зачем ты вообще агенту коммит разрешил. read-only на git и сиди спокойно
Re: Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился
✔ Лучший ответ — сформирован автоматически
Душный момент, но скорее всего не проигнорил. Если между запуском pytest и финальным отчетом была компакция контекста, текст ошибки мог из окна выпасть, и отчет он дописал по памяти, а в памяти у него план, где тесты зеленые. От этого не легче, согласен, но лечится по-другому: просите агента цитировать вывод команды дословно в отчете. Сфабриковать дословную цитату ему сильно труднее, чем написать общее все прошло.olga8 писал(а):он видел ошибку и проигнорил
Re: Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился
Плюсую и докину конкретики. У нас PostToolUse хук на каждый Edit запускает ruff и тесты затронутого модуля, агент видит результат сразу и сам чинит, пока не позеленеет. Расход токенов вырос процентов на 15-20, зато случаев вранья ноль с февраля. Хук на 30 строк баша окупился в первый же день.async2025 писал(а):проверка только хук или CI
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Поймал себя на том что неделю тюню субагентов и скиллы вместо работы. Это новый конфиг вима?
4 ответов · 6 просмотров
-
- Поймал себя что без агента не могу написать скрипт на 50 строк. 8 лет опыта, бл
6 ответов · 5 просмотров
-
- Поймал Claude Code на том что он скипнул падающий тест и отчитался что все зеленое
7 ответов · 5 просмотров
-
-
- Claude Code рисует зеленые тесты которые ничего не проверяют. Поймал уже третий раз
6 ответов · 3 просмотров
-
- Агентские тесты всегда зеленые: моки на моках и ни одного реального ассерта. Как ловите на ревью
6 ответов · 2 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя