Агент написал 1800 тестов, покрытие 92%, а прод падает там же где и падал
Рейтинг: 0% · 0 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Агент написал 1800 тестов, покрытие 92%, а прод падает там же где и падал
Был спринт на техдолг, отдал Claude Code сервис на питоне (FastAPI, около 30к строк) с задачей поднять покрытие. За два вечера он выдал 1800 тестов, покрытие с 41 до 92, CI зеленый, команда довольна, я в отчете красавчик.
Через две недели прод упал ровно на том же месте, что и в апреле: гонка при двойном вебхуке от платежки. Полез в тесты этого участка и прозрел. Агент замокал саму функцию обработки, и тест проверяет, что мок вызван с теми аргументами, с которыми его вызвали. Таких тестов там по беглой оценке треть, они не могут упасть в принципе.
Вопрос: кто-нибудь получал от агентских тестов реальную пользу, или это у всех театр покрытия?
Через две недели прод упал ровно на том же месте, что и в апреле: гонка при двойном вебхуке от платежки. Полез в тесты этого участка и прозрел. Агент замокал саму функцию обработки, и тест проверяет, что мок вызван с теми аргументами, с которыми его вызвали. Таких тестов там по беглой оценке треть, они не могут упасть в принципе.
Вопрос: кто-нибудь получал от агентских тестов реальную пользу, или это у всех театр покрытия?
✔ Лучший ответ сформирован автоматически — svelte42
переживал ровно это осенью, расскажу что прижилось. Тесты от агента ревьюим жестче чем код, именно потому что плохой тест хуже отсутствия теста, он дает ложную уверенность. Правило простое: в дифе теста сначала смотрим моки, если замокано то, что тестируем, реджект без разговоров. И просим агента писать через реальную базу в testcontainers вместо моков везде где можно. Медленнее, зато твоя гонка …
Re: Агент написал 1800 тестов, покрытие 92%, а прод падает там же где и падал
@togashi, прогони mutmut по этим 1800. у агентских тестов mutation score обычно позорный, процентов 30, и сразу видно какие пустышки. мы после похожей истории поставили mutation testing в CI на критичные модули. медленно, зато честно
- docker2010
- Сообщения: 2
- Зарегистрирован: 25 май 2026, 13:01
Re: Агент написал 1800 тестов, покрытие 92%, а прод падает там же где и падал
Закон Гудхарта в исполнении LLM, да. Но вывод не сам виноват, а формулировать от поведения. Я агенту скармливаю тикеты из багтрекера и прошу написать падающий тест, воспроизводящий баг, до всякого фикса. Тест обязан упасть на текущем коде, это проверяется автоматически. Потом фикс, тест зеленеет. Такие тесты осмысленны по построению, в отличие от подними покрытие до Xdeepghost писал(а):заказал метрику, получил метрику
Re: Агент написал 1800 тестов, покрытие 92%, а прод падает там же где и падал
✔ Лучший ответ — сформирован автоматически
переживал ровно это осенью, расскажу что прижилось. Тесты от агента ревьюим жестче чем код, именно потому что плохой тест хуже отсутствия теста, он дает ложную уверенность. Правило простое: в дифе теста сначала смотрим моки, если замокано то, что тестируем, реджект без разговоров. И просим агента писать через реальную базу в testcontainers вместо моков везде где можно. Медленнее, зато твоя гонка с вебхуком на testcontainers ловится, у нас почти такая же была с ЮKassa, два ретрая прилетали с разницей в 50мс
- docker2010
- Сообщения: 2
- Зарегистрирован: 25 май 2026, 13:01
Re: Агент написал 1800 тестов, покрытие 92%, а прод падает там же где и падал
@deepghost, 1800 тестов это еще и CI минут на 40 поди. поздравляю, теперь у вас и театр покрытия, и очередь на мерж
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- *arr-стек на сидбоксе через gluetun: VPN падает — и весь docker-стек встаёт колом
14 ответов · 948 просмотров
-
-
- Полгода пилил pet-проект ради идеальной архитектуры и 95% тестов. Бросил. Узнаёте?
14 ответов · 500 просмотров
-
- Нашёл дыру на сайте конторы, по-человечески написал им — в ответ угрожают полицией
11 ответов · 466 просмотров
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя