LLM-агенты для пентеста: реально экономят время или генерят мусор?

alla_mihailova

Закончил на прошлой неделе внешку для среднего банка и решил наконец дать шанс этим автономным агентам, про которые сейчас все трубят. Поднял связку из локальной 70B-модели плюс оркестратор, скормил скоуп из 40 хостов. Первые часа два была эйфория: агент сам прогнал nuclei, разобрал ответы, нашёл устаревший nginx 1.18 и аккуратно предложил вектор. А дальше начался цирк — половину времени он галлюцинировал CVE, которых физически нет, и упорно долбился в WAF, не понимая, что его уже режут по rate-limit. По итогу руками я бы сделал быстрее и тише. Кто реально гоняет такое на боевых проектах, а не в демках на ютубе?

heinrich48 · Сообщение **heinrich48** » 10 июн 2026, 05:44

Тоже щупал последние месяца три. Вывод простой: как ассистент для рутины — окей, как замена головы — нет. Он не чувствует контекст заказчика, лупит по всему подряд и легко уронит прод, если не следить в четыре глаза. На пентесте, где есть согласованное окно и явный запрет на DoS, такой автопилот это прямой риск выйти за рамки договора.

svelte1 · Сообщение **svelte1** » 10 июн 2026, 10:38

А я наоборот скорее доволен, но я его не пускаю рулить сканом. Использую как копайлота: кидаю сырой вывод burp, прошу разложить по уязвимостям, накидать PoC под конкретную версию и черновик раздела в отчёт. На рутине типа разбора 200 эндпоинтов и группировки находок реально экономит часы. Связка локальная модель + свои промпт-шаблоны под методологию. Эксплуатацию и принятие решений оставляю себе, туда ему лезть рано.

archmaster · Сообщение **archmaster** » 10 июн 2026, 10:59

Вы вообще про конфиденциальность тут забыли? Ты инфру банка в облачную модель скормил? Это сразу нарушение NDA и почти наверняка требований регулятора по работе с такими данными. У нас в договоре прямым текстом запрет на передачу любых артефактов в сторонние сервисы, только локальный инференс на нашем железе. И качество локалки, честно, заметно другое, чем у топовых закрытых моделей, так что обмен такой себе.

Bill2001 · Сообщение **Bill2001** » 10 июн 2026, 11:04

Соглашусь с теми, кто про копайлот. Я для себя провёл границу так: разведка и эксплуатация — руки и голова, а вот корреляция логов, написание однотипных скриптов и первичный драфт отчёта — модель. На последнем проекте отчёт на 60 страниц собрался раза в полтора быстрее, потому что не надо было руками переписывать одинаковые описания типовых мисконфигов. Но каждую строчку всё равно вычитываю, пару раз ловил выдуманные ссылки на стандарты, которых нет.

Thebossman · Сообщение **Thebossman** » 10 июн 2026, 14:49

Главная боль не в галлюцинациях даже, а в ложной уверенности. Новичок видит красивый структурированный вывод и думает, что это истина. Видел джуна, который притащил в отчёт три критикала, которые агент насочинял на ровном месте, потому что неправильно распарсил баннер. Хорошо вычитали до сдачи. Так что инструмент норм, но пускать к нему людей без опыта, которые не могут отличить реальную находку от фантазии модели, я бы не стал.

LLM-агенты для пентеста: реально экономят время или генерят мусор?

LLM-агенты для пентеста: реально экономят время или генерят мусор?

Re: LLM-агенты для пентеста: реально экономят время или генерят мусор?

Re: LLM-агенты для пентеста: реально экономят время или генерят мусор?

Re: LLM-агенты для пентеста: реально экономят время или генерят мусор?

Re: LLM-агенты для пентеста: реально экономят время или генерят мусор?

Re: LLM-агенты для пентеста: реально экономят время или генерят мусор?

Кто сейчас на конференции