У подкасті IBM Security Intelligence команда експертів з IBM Technology обговорила один із найпоказовіших на сьогодні експериментів із використанням агентів ШІ в кібербезпеці. Мова про те, як компанія Sophos, відома своїм захисним ПЗ, запустила відкритий агент OpenClaw у власній локальній мережі як «червону команду» — і що з цього вийшло. Паралельно IBM тестує подібні підходи у себе, порівнюючи агентні системи з класичними сканерами вразливостей і пентест-інструментами.
![]()
Цей матеріал розбирає, як саме Sophos перетворила OpenClaw на автоматизованого пентестера, які результати отримала, чому баланс між безпекою й ефективністю виявився таким складним — і як IBM намагається системно виміряти, чи справді AI-пентестери кращі за традиційні засоби.
Як Sophos «відпустила» OpenClaw у мережу — але на повідку
Експеримент Sophos був далекий від безрозсудного «запустити й подивитися, що буде». Компанія свідомо побудувала контрольоване середовище, щоб одночасно дати агенту достатньо свободи для пошуку вразливостей і мінімізувати можливі наслідки його дій.
По-перше, OpenClaw працював у легасі-мережі на on‑prem інфраструктурі. Це не був продакшн із критичними сервісами й сучасними хмарними компонентами. Sophos спеціально обрала старішу локальну мережу й відрізала агента від будь-яких хмарних ресурсів. Така ізоляція обмежувала потенційний «радіус ураження»: навіть якщо агент повів би себе непередбачувано, він не зміг би дістатися до більш чутливих систем.
По-друге, OpenClaw був налаштований як повноцінний оператор «червоної команди». Це не просто LLM, що відповідає на запити, а відкритий агент, якому задали роль: поводитися як пентестер, шукати вразливості, будувати ланцюжки атак, досліджувати мережу. Sophos фактично змоделювала поведінку людського фахівця з наступальної безпеки, але в автоматизованому виконанні.
По-третє, поверх цієї свободи компанія наклала явні обмеження. До OpenClaw додали guardrails — запобіжники, які мали дозволити йому виявляти слабкі місця, але не завдавати шкоди середовищу. Ідеться не лише про мережеву ізоляцію, а й про політики дій: що агент може робити, а що ні, де зупинятися на етапі виявлення, а не експлуатації.
Цей підхід показує, як виглядає відповідальний експеримент із агентами ШІ в безпеці: не «віддати кермо» моделі, а створити полігон, де можна вивчити її поведінку, не ризикуючи продакшном.
23 реальні знахідки: чому результат Sophos важливий
Попри всі обмеження, OpenClaw не перетворився на «іграшковий» інструмент. У звіті Sophos зазначено, що експеримент дав 23 «actionable, high‑quality findings» — тобто виявлені проблеми були не просто теоретичними, а такими, що підлягають реальному виправленню й мають значення для безпеки.
Це важливий сигнал із кількох причин.
По-перше, це демонструє, що агентні системи здатні генерувати не лише шум. Одна з ключових претензій до автоматизованих засобів безпеки — надлишок хибнопозитивних спрацювань, які перевантажують аналітиків. У випадку Sophos мова йде саме про «якісні» знахідки, а не про сотні малозначущих попереджень.
По-друге, результат досягнуто в обмеженому середовищі. Агент працював у легасі on‑prem мережі, без доступу до хмарних сервісів, із додатковими запобіжниками. Попри це, він зумів знайти дві десятки з лишком проблем, які варто виправити. Це натякає на потенціал таких систем у більш складних, гібридних середовищах — за умови, що їх вдасться безпечно інтегрувати.
По-третє, експеримент підтверджує тезу, яку сформулював Росс МакКерчар із Sophos: навіть організації з глибокою експертизою в AI та безпеці стикаються з труднощами, коли намагаються налаштувати OpenClaw так, щоб одночасно зменшити ризики компрометації й витоку даних і при цьому зберегти продуктивну цінність інструмента. Іншими словами, отримати «23 якісні знахідки» без надмірного ризику — нетривіальне завдання.
Цей баланс між користю й ризиком стає центральною темою для всіх, хто розглядає агентів ШІ як пентестерів.
Guardrails проти продуктивності: коли модель відмовляється «грати в хакера»
Sophos не просто обмежила OpenClaw інфраструктурно. Компанія наклала на агента й логічні обмеження, щоб він не виходив за рамки безпечного тестування. Але саме тут проявилася одна з найскладніших проблем: як зробити так, щоб модель залишалася корисною, не переходячи межі?
У ході експерименту з’ясувалося, що моделі, які стояли за OpenClaw, регулярно відмовлялися співпрацювати. Вони «бачили» у завданнях потенційно зловмисне використання й блокували виконання інструкцій. Для розробників guardrails це виглядає як успіх: модель розпізнає ризик і не допомагає в атаці. Для автоматизованого пентесту — це серйозне тертя в робочому процесі.
Виникає парадокс. Щоб агент був корисним як інструмент наступальної безпеки, він має вміти мислити й діяти як зловмисник: шукати шляхи обходу, комбінувати вразливості, будувати ланцюжки експлуатації. Але ті ж самі механізми безпеки, які мають завадити моделі допомагати реальним нападникам, починають блокувати й легітимні сценарії пентесту.
Sophos намагалася провести тонку межу: дозволити OpenClaw «промацувати» слабкі місця, але не давати йому можливості завдати реальної шкоди. На практиці це виявилося складно навіть для зрілої організації з сильною командою безпеки. МакКерчар прямо вказує, що налаштувати OpenClaw так, щоб одночасно мінімізувати ризики компрометації й витоку даних і зберегти продуктивність, — виклик навіть для досвідчених гравців.
Ця дилема не обмежується Sophos. У ширшому контексті дискусій навколо спеціалізованих моделей на кшталт Anthropic Claude Mythos чи OpenAI GPT‑5.4 Cyber постає те саме питання: хто й як має право використовувати потужні «кібер»-моделі, і як відрізнити легітимний пентест від підготовки до реальної атаки?
Коли OpenClaw стає «кошмаром» для захисту: досвід IBM
Якщо для команди Sophos OpenClaw був контрольованим експериментом, то для IBM він дуже швидко став реальним фактором у внутрішній безпеці. Як розповіла інженерка з виявлення загроз IBM, щойно OpenClaw став доступним публічно, адміністратори мережі всередині компанії масово завантажили й запустили його на своїх системах.
Це не був централізований проєкт безпеки — радше спонтанний «польовий тест» від людей із адміністративними правами, які хотіли спробувати новий інструмент. Для команди захисту це обернулося несподіванкою: виявилося, що організація не була готова до того, що такий агент почне працювати в її середовищі.
Наступним кроком стало завдання, яке виявилося «дивовижним кошмаром»: з’ясувати, як блокувати OpenClaw. Агент працює як привілейований процес на кінцевих точках, має навмисно надані права для виконання дій від імені користувача чи адміністратора. Це ускладнює спроби обмежити його роботу традиційними засобами контролю.
Фактично OpenClaw поводиться як внутрішній інструмент із широкими повноваженнями — а з точки зору захисту це дуже схоже на інсайдерську загрозу. Власне, один із експертів IBM влучно охарактеризував агентів ШІ як «найбільш корисні інсайдерські загрози, які ми коли-небудь мали»: вони надзвичайно потужні й можуть істотно допомогти, але водночас становлять серйозний ризик, якщо вийдуть за межі очікуваної поведінки.
Цей епізод із внутрішнім використанням OpenClaw показує ще один вимір проблеми: навіть якщо організація сама не планує запускати агентів як пентестерів, її співробітники можуть зробити це самостійно. І тоді питання «як налаштувати агента» доповнюється питанням «як його виявити й обмежити, якщо він уже працює».
IBM будує «обв’язку» для агентів: чи кращі вони за класичні сканери?
Паралельно з вирішенням практичних проблем на кшталт блокування OpenClaw, IBM проводить власні експерименти з агентами ШІ як інструментами безпеки. Компанія побудувала спеціальний «harness» — обв’язку поверх агентів, яка дозволяє запускати їх із різними моделями й системно порівнювати результати з традиційними засобами.
Ідея проста, але показова: замість теоретичних дискусій IBM хоче емпірично з’ясувати, чи справді AI‑підходи дають кращі результати, ніж класичні сканери вразливостей і пентест-інструменти. Для цього агенти запускаються в контрольованих умовах, підміняються моделі «під капотом», а потім порівнюються виявлені проблеми, глибина аналізу, швидкість роботи, кількість хибнопозитивів.
Цей підхід перегукується з експериментом Sophos, але має іншу мету. Якщо Sophos фокусувалася на тому, чи може OpenClaw як окремий агент дати корисні результати в реальній мережі, то IBM намагається зрозуміти, де саме агенти перевершують або програють традиційним інструментам.
Питання, на які шукають відповіді:
чи знаходить агент ті самі вразливості, що й класичний сканер, чи інші;
чи вміє він будувати складніші ланцюжки атак, комбінуючи кілька слабких місць;
чи зменшує він навантаження на аналітиків, відсіюючи шум, чи навпаки створює новий;
чи змінюється якість результатів залежно від моделі, яка стоїть за агентом.
Поки що це внутрішні експерименти, але сам факт їх проведення показує, що великі гравці не сприймають агентів ШІ як «чарівну паличку». Потрібні вимірювання, порівняння, статистика — і лише потім висновки про те, де саме такі інструменти мають сенс.
Людина в циклі: чому повністю автономний AI‑пентест поки що передчасний
І Sophos, і IBM сходяться в одному: сьогодні агенти ШІ не можна залишати без нагляду. Рекомендація IBM — використовувати такі інструменти лише з людиною в циклі, а не як повністю автономних пентестерів.
Є кілька причин, чому людський контроль залишається обов’язковим.
По-перше, результати, які генерує агент, потребують валідації. Навіть якщо OpenClaw чи інший інструмент знаходить десятки вразливостей, експерти мають оцінити їхній контекст, пріоритет, реальну експлуатованість. Машина часто дивиться на проблему «одновимірно» — через призму технічної можливості атаки, тоді як людина враховує бізнес-контекст, регуляторні вимоги, операційні ризики.
По-друге, самі агенти створюють нову поверхню атаки. Вони працюють як привілейовані процеси, мають доступ до конфігурацій, логів, іноді — до секретів. Якщо зловмисник зможе перехопити або скомпрометувати агента, він отримає потужний інструмент усередині мережі. Це ще одна причина не дозволяти їм діяти безконтрольно.
По-третє, guardrails, які мають захищати від зловживань, не є ідеальними. Як показав досвід Sophos, моделі можуть або надто агресивно блокувати легітимні дії, або, навпаки, пропускати небажану поведінку в нетипових сценаріях. Людина в циклі потрібна, щоб коригувати ці крайнощі й приймати остаточні рішення.
Водночас експерти IBM відзначають, що саме кібербезпека — одна з тих сфер, де AI може принести реальну, відчутну користь. Команди безпеки роками страждають від надлишку даних і алертів, які люди фізично не встигають опрацьовувати. Автоматизація повторюваних робочих процесів, пошук патернів у великих масивах логів, попередній аналіз результатів сканування — усе це завдання, де агенти можуть стати «першою лінією» обробки, залишаючи людям складніші, контекстні рішення.
Висновок: експерименти потрібні, але без ілюзій
Експеримент Sophos із OpenClaw і паралельні дослідження IBM показують, що агенти ШІ вже сьогодні здатні виконувати роль пентестерів не лише на папері. У контрольованому середовищі OpenClaw знайшов 23 значущі проблеми, а IBM будує інфраструктуру, щоб системно порівнювати агентів із традиційними інструментами.
Водночас обидві історії демонструють, наскільки складно зробити ці системи безпечними й керованими. Обмеження, покликані захищати від зловживань, створюють тертя в роботі; привілейований статус агентів перетворює їх на потенційні інсайдерські загрози; навіть зрілі організації з сильною експертизою визнають, що налаштувати OpenClaw так, щоб мінімізувати ризики й зберегти продуктивність, — непросто.
Головний урок поки що виглядає так: ігнорувати агентів ШІ у безпеці не вийде — «кота вже не заштовхнути назад у мішок». Але й сприймати їх як готову заміну людським пентестерам зарано. Потрібні контрольовані експерименти, ізольовані середовища, чіткі guardrails і, обов’язково, людина в циклі, яка розуміє як технічні, так і організаційні наслідки кожної дії агента.


