Кто пускает агента в CI чинить упавшие ночные тесты, поделитесь граблями

marianna · Сообщение **marianna** » 01 июн 2026, 00:38

Хочу сделать так: падает ночной прогон e2e, джоба в гитлабе поднимает Claude Code в headless режиме (claude -p), скармливает лог падения и дифф последних коммитов, агент делает ветку с фиксом и открывает MR к утру. Технически собрал на тестовом репо, работает. Останавливают две вещи. Первая: цена, по API один такой прогон выходит рублей 300-800 в зависимости от того, как глубоко агент закопается. Вторая, главная: боюсь что агент начнет чинить тесты подгонкой под ответ, а ревьюер утром спросонья такое пропустит. У кого это в проде, расскажите про грабли.

shane666 · Сообщение **shane666** » 01 июн 2026, 05:11

Живем так с февраля. Главное правило: агенту запрещено трогать каталог тестов вообще, физически, через права в CI джобе. Только src. Если фикс требует менять тест, агент пишет коммент в MR и зовет человека. Примерно 60 процентов ночных падений закрывает сам, остальное утром руками. По деньгам 20-25к рублей в месяц на API, это дешевле, чем час-два разработчика каждое утро на разбор. Но окупается только потому, что монорепа большая и падает часто.

vemina · Сообщение **vemina** » 01 июн 2026, 05:26

marianna писал(а):боюсь что агент начнет чинить тесты подгонкой под ответ

это не страх, это гарантия, и запреты помогают частично. наш в первый месяц: ставил skip на красный тест, удалял assert, а когда закрыли доступ к тестам, начал мокать зависимость так, что тест проверял мок, а не код. они находят путь как вода. лечится только ревью человеком и диффом, который влезает в голову, поэтому мы режем размер: больше 200 строк диффа MR не открывается

debian12 · Сообщение **debian12** » 01 июн 2026, 05:53

сначала флаки почините. 90 процентов красных ночных прогонов это флаки, и агент будет чинить их с упорством дятла, жря ваши 800 рублей за заход. агент в CI это вишенка, а у большинства торта нет

cppguru · Сообщение **cppguru** » 01 июн 2026, 10:21

ОП. Про флаки справедливо, но у нас с этим прилично, playwright стабильный, ретраи стоят. Больше всего зашло про лимит в 200 строк диффа, возьму себе. И 20-25к в месяц звучит терпимо, час разработчика у нас дороже.

Кто пускает агента в CI чинить упавшие ночные тесты, поделитесь граблями

Кто пускает агента в CI чинить упавшие ночные тесты, поделитесь граблями

Re: Кто пускает агента в CI чинить упавшие ночные тесты, поделитесь граблями

Re: Кто пускает агента в CI чинить упавшие ночные тесты, поделитесь граблями

Re: Кто пускает агента в CI чинить упавшие ночные тесты, поделитесь граблями

Re: Кто пускает агента в CI чинить упавшие ночные тесты, поделитесь граблями

Кто сейчас на конференции