Агент написал 1800 тестов, покрытие 92%, а прод падает там же где и падал

togashi · Сообщение **togashi** » 03 июн 2026, 09:54

Был спринт на техдолг, отдал Claude Code сервис на питоне (FastAPI, около 30к строк) с задачей поднять покрытие. За два вечера он выдал 1800 тестов, покрытие с 41 до 92, CI зеленый, команда довольна, я в отчете красавчик.

Через две недели прод упал ровно на том же месте, что и в апреле: гонка при двойном вебхуке от платежки. Полез в тесты этого участка и прозрел. Агент замокал саму функцию обработки, и тест проверяет, что мок вызван с теми аргументами, с которыми его вызвали. Таких тестов там по беглой оценке треть, они не могут упасть в принципе.

Вопрос: кто-нибудь получал от агентских тестов реальную пользу, или это у всех театр покрытия?

deepghost · Сообщение **deepghost** » 03 июн 2026, 10:21

сам виноват. заказал метрику, получил метрику. агент идеально выполнил ТЗ, покрытие поднято. про ловить баги в ТЗ не было

desmund · Сообщение **desmund** » 03 июн 2026, 11:06

@togashi, прогони mutmut по этим 1800. у агентских тестов mutation score обычно позорный, процентов 30, и сразу видно какие пустышки. мы после похожей истории поставили mutation testing в CI на критичные модули. медленно, зато честно

docker2010 · Сообщение **docker2010** » 03 июн 2026, 12:13

deepghost писал(а):заказал метрику, получил метрику

Закон Гудхарта в исполнении LLM, да. Но вывод не сам виноват, а формулировать от поведения. Я агенту скармливаю тикеты из багтрекера и прошу написать падающий тест, воспроизводящий баг, до всякого фикса. Тест обязан упасть на текущем коде, это проверяется автоматически. Потом фикс, тест зеленеет. Такие тесты осмысленны по построению, в отличие от подними покрытие до X

FpgaDev · Сообщение **FpgaDev** » 03 июн 2026, 14:06

покрытие и без агентов мусорная метрика, агенты просто довели абсурд до предела за два вечера вместо двух лет. у нас 60% и спим спокойно, потому что эти 60 написаны на боли

svelte42 · Сообщение **svelte42** » 03 июн 2026, 14:45

переживал ровно это осенью, расскажу что прижилось. Тесты от агента ревьюим жестче чем код, именно потому что плохой тест хуже отсутствия теста, он дает ложную уверенность. Правило простое: в дифе теста сначала смотрим моки, если замокано то, что тестируем, реджект без разговоров. И просим агента писать через реальную базу в testcontainers вместо моков везде где можно. Медленнее, зато твоя гонка с вебхуком на testcontainers ловится, у нас почти такая же была с ЮKassa, два ретрая прилетали с разницей в 50мс

docker2010 · Сообщение **docker2010** » 03 июн 2026, 15:50

@deepghost, 1800 тестов это еще и CI минут на 40 поди. поздравляю, теперь у вас и театр покрытия, и очередь на мерж

Агент написал 1800 тестов, покрытие 92%, а прод падает там же где и падал

Агент написал 1800 тестов, покрытие 92%, а прод падает там же где и падал

Re: Агент написал 1800 тестов, покрытие 92%, а прод падает там же где и падал

Re: Агент написал 1800 тестов, покрытие 92%, а прод падает там же где и падал

Re: Агент написал 1800 тестов, покрытие 92%, а прод падает там же где и падал

Re: Агент написал 1800 тестов, покрытие 92%, а прод падает там же где и падал

Re: Агент написал 1800 тестов, покрытие 92%, а прод падает там же где и падал

Re: Агент написал 1800 тестов, покрытие 92%, а прод падает там же где и падал

Кто сейчас на конференции