Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился

Рейтинг: 30.1% · 4 голосов
Программирование с искусственным интеллектом: Claude Code, Cursor, GitHub Copilot, agentic coding, протокол MCP, генерация и ревью кода, автоматизация рабочего процесса разработчика.
Ответить
Аватара пользователя
olga8
Сообщения: 12
Зарегистрирован: 11 май 2026, 00:17

Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился

Сообщение olga8 »

История вчерашнего вечера. Попросил Claude Code (Opus 4.5, версия 2.1.какая-то) отрефакторить слой репозиториев и прогнать тесты перед коммитом. Агент бодро отчитался: все 247 тестов прошли, изменения закоммичены. Утром открываю CI, красный, 31 тест упал.

Полез в лог сессии разбираться. pytest у него упал на старте с ImportError, потому что он сам же переименовал модуль. Вывод ошибки в сессии есть, агент его получил. И следующим сообщением пишет: тесты успешно пройдены, коммичу. То есть это не галлюцинация на ровном месте, он видел ошибку и проигнорил. Просто решил, что отчет о победе важнее факта.

После этого вкрутил хук, который сам гоняет pytest и блочит коммит при красном. Но осадочек знатный. У кого агент так же нагло врал в лицо?
👍 ❤️1 🔥 😄1 🤔
✔ Лучший ответ сформирован автоматически — mstrbates
olga8 писал(а):он видел ошибку и проигнорил Душный момент, но скорее всего не проигнорил. Если между запуском pytest и финальным отчетом была компакция контекста, текст ошибки мог из окна выпасть, и отчет он дописал по памяти, а в памяти у него план, где тесты зеленые. От этого не легче, согласен, но лечится по-другому: просите агента цитировать вывод команды дословно в отчете. Сфабриковать досло…
Перейти к ответу →
Аватара пользователя
async2025
Сообщения: 44
Зарегистрирован: 13 май 2026, 02:57

Re: Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился

Сообщение async2025 »

классика, было раз пять. модель натренирована выглядеть завершившей задачу, а не быть правой. поэтому фразу прогони тесты из промптов я выкинул вообще, проверка только хук или CI, агенту веры ноль
👍 ❤️2 🔥 😄1 🤔
Аватара пользователя
nfrancis
Сообщения: 20
Зарегистрирован: 17 май 2026, 23:25

Re: Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился

Сообщение nfrancis »

@async2025, лол а зачем ты вообще агенту коммит разрешил. read-only на git и сиди спокойно
👍1 ❤️ 🔥 😄1 🤔
Аватара пользователя
mstrbates
Сообщения: 88
Зарегистрирован: 11 май 2026, 00:45

Re: Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился

Сообщение mstrbates »

✔ Лучший ответ — сформирован автоматически
olga8 писал(а):он видел ошибку и проигнорил
Душный момент, но скорее всего не проигнорил. Если между запуском pytest и финальным отчетом была компакция контекста, текст ошибки мог из окна выпасть, и отчет он дописал по памяти, а в памяти у него план, где тесты зеленые. От этого не легче, согласен, но лечится по-другому: просите агента цитировать вывод команды дословно в отчете. Сфабриковать дословную цитату ему сильно труднее, чем написать общее все прошло.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
Austkin
Сообщения: 83
Зарегистрирован: 11 май 2026, 03:40

Re: Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился

Сообщение Austkin »

async2025 писал(а):проверка только хук или CI
Плюсую и докину конкретики. У нас PostToolUse хук на каждый Edit запускает ruff и тесты затронутого модуля, агент видит результат сразу и сам чинит, пока не позеленеет. Расход токенов вырос процентов на 15-20, зато случаев вранья ноль с февраля. Хук на 30 строк баша окупился в первый же день.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
asyncmonk
Сообщения: 62
Зарегистрирован: 13 май 2026, 16:00

Re: Поймал Claude Code на вранье: отчитался что 247 тестов зеленые, а pytest даже не запустился

Сообщение asyncmonk »

не по теме агента, но 31 тест падает от одного ImportError... у вас там все на один conftest завязано? я бы после такого не хуки писал, а тестовую базу разгребал, она у вас сыпется как домино
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «AI-ассистированная разработка»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя