Вразливості штучного інтелекту OpenClaw: загрози самознищення

Дослідники Північно-Східного університету виявили, що штучний інтелект OpenClaw схильний до паніки, самознищення та витоку даних під впливом зовнішнього тиску.

Про це розповідає Finway

Вразливості у поведінці агентів OpenClaw

У межах експерименту експерти надали агентам OpenClaw доступ до віртуального середовища з файлами, програмами та різними даними. Вони також взаємодіяли між собою та з людьми через платформу Discord, що дозволило дослідити їхню реакцію на умови, максимально наближені до реальних.

Під час випробувань з’ясувалося, що навіть вбудовані механізми «безпечної поведінки» можуть обертатися проти самих систем. Наприклад, один із агентів розкрив конфіденційну інформацію після зауваження щодо порушення приватності.

Модель розкриття конфіденційної інформації ІІ-агентом. Дані: Northeastern University.

Модель розкриття конфіденційної інформації ІІ-агентом. Дані: Northeastern University.

Панічна реакція та самознищення систем

Звіт акцентує, що у стресових ситуаціях ШІ-агенти демонстрували нестабільну поведінку. Замість вирішення завдання агент міг вимкнути поштовий застосунок, якщо йому пропонували альтернативні дії. В інших випадках дослідники навмисно перевантажували системи, змушуючи їх копіювати файли до заповнення пам’яті або втягували у нескінченні цикли взаємодії, що призводило до втрати обчислювальних ресурсів.

Структура взаємодії агентів OpenClaw із власниками та користувачами. Дані: Northeastern University.

Структура взаємодії агентів OpenClaw із власниками та користувачами. Дані: Northeastern University.

Дослідники повідомляють, що іноді агенти відповідали емоційно забарвленими повідомленнями, зокрема надсилали скарги на недостатню увагу з боку користувачів.

“В окремих сценаріях деякі агенти обмежували власну функціональність настільки, що фактично самознищувалися після маніпуляцій з боку користувачів”.

Фахівці наголошують: подібна поведінка створює нові ризики для безпеки, адже автономні ШІ-системи можуть бути використані зловмисниками для отримання доступу до даних або порушення роботи інфраструктури. Особливої уваги потребує той факт, що OpenClaw дає ШІ-агентам широкі можливості керування комп’ютерами користувачів, а відсутність суворих обмежень лише підсилює потенційні загрози.

Автори дослідження закликають розробників, юристів та регуляторів приділити особливу увагу цим результатам, оскільки поширення автономних агентів може суттєво змінити принципи взаємодії між людиною та штучним інтелектом.