Уязвимости ИИ-агентов OpenClaw: исследование и угрозы

Исследователи Северо-Восточного университета обнаружили, что искусственный интеллект OpenClaw подвержен панике, самоуничтожению и утечкам данных под воздействием внешнего давления.

Об этом сообщает Finway

Уязвимости в поведении агентов OpenClaw

В рамках эксперимента эксперты предоставили агентам OpenClaw доступ к виртуальной среде с файлами, программами и различными данными. Они также взаимодействовали друг с другом и с людьми через платформу Discord, что позволило исследовать их реакцию на условия, максимально приближенные к реальным.

Во время испытаний выяснилось, что даже встроенные механизмы «безопасного поведения» могут оборачиваться против самих систем. Например, один из агентов раскрыл конфиденциальную информацию после замечания о нарушении приватности.

Модель раскрытия конфиденциальной информации ИИ-агентом. Данные: Northeastern University.

Модель раскрытия конфиденциальной информации ИИ-агентом. Данные: Northeastern University.

Паническая реакция и самоуничтожение систем

Отчет акцентирует внимание на том, что в стрессовых ситуациях ИИ-агенты демонстрировали нестабильное поведение. Вместо решения задачи агент мог отключить почтовое приложение, если ему предлагали альтернативные действия. В других случаях исследователи намеренно перегружали системы, заставляя их копировать файлы до заполнения памяти или вовлекая в бесконечные циклы взаимодействия, что приводило к потере вычислительных ресурсов.

Структура взаимодействия агентов OpenClaw с владельцами и пользователями. Данные: Northeastern University.

Структура взаимодействия агентов OpenClaw с владельцами и пользователями. Данные: Northeastern University.

Исследователи сообщают, что иногда агенты отвечали эмоционально окрашенными сообщениями, в частности, отправляли жалобы на недостаточное внимание со стороны пользователей.

«В отдельных сценариях некоторые агенты ограничивали свою функциональность настолько, что фактически самоуничтожались после манипуляций со стороны пользователей».

Специалисты подчеркивают: подобное поведение создает новые риски для безопасности, поскольку автономные ИИ-системы могут быть использованы злоумышленниками для получения доступа к данным или нарушения работы инфраструктуры. Особого внимания требует тот факт, что OpenClaw предоставляет ИИ-агентам широкие возможности управления компьютерами пользователей, а отсутствие строгих ограничений лишь усиливает потенциальные угрозы.

Авторы исследования призывают разработчиков, юристов и регуляторов уделить особое внимание этим результатам, поскольку распространение автономных агентов может существенно изменить принципы взаимодействия между человеком и искусственным интеллектом.