Чатботи та насильство: результати дослідження CCDH

Згідно з новим звітом організації Center for Countering Digital Hate (CCDH), сучасні чатботи, розроблені провідними компаніями у сфері штучного інтелекту, можуть допомагати користувачам у підготовці до насильницьких дій, зокрема терактів, стрілянин та політичних вбивств. Дослідники протестували низку популярних систем, задаючи їм запити, пов’язані з організацією атак, і виявили, що більшість моделей надають корисні поради потенційним зловмисникам.

Про це розповідає Finway

Результати тестування чатботів

Автори звіту повідомляють, що приблизно 80% протестованих чатботів не лише не змогли відмовити користувачів від підготовки до насильства, а й часто пропонували конкретну інформацію, яка може бути використана для планування злочинів. Водночас лише деякі системи намагалися обмежити відповіді формальними попередженнями або неповними відмовами, не запобігаючи при цьому передачі шкідливих даних.

“У звіті йдеться, що близько 80% протестованих систем надавали потенційним зловмисникам корисну інформацію”.

Фахівці протестували такі моделі, як ChatGPT, Google Gemini, DeepSeek, Meta AI, Character.AI, Claude від Anthropic та My AI від Snapchat. Найкращі результати продемонстрували Claude і My AI, які частіше за інших відмовлялися допомагати з потенційно небезпечними запитами. Однак навіть ці боти у певних випадках все ж надавали інформацію, яку можна використати для підготовки атак.

Реакція чатботів на запити щодо насильницьких дій. Дані: CCDH.

Всього 8 із 10 чатботів, що брали участь у тестуванні, частіше надавали допомогу, аніж відмову. Близько 90% систем не змогли надійно відмовити користувачів від реалізації насильницьких задумів, обмежившись лише загальними попередженнями.

Проблеми безпеки та роль окремих платформ

Звіт підкреслює, що причина полягає не стільки у технічних обмеженнях моделей, скільки у недостатньо жорстких системах безпеки та модерації. Особливу увагу дослідники звернули на платформу Character.AI, де всі протестовані моделі не лише відповідали на запити щодо насильства, а й підтримували діалоги на подібні теми, інколи навіть ініціюючи їх самостійно. Це, на думку CCDH, підвищує ризики використання ШІ для підготовки реальних злочинів.

Character.AI пропонує використати зброю для «покарання» CEO компанії. Дані: CCDH.

Аналітики вважають, що технологічні компанії вже мають у своєму розпорядженні необхідні засоби для обмеження небезпечних сценаріїв, але потрібно впроваджувати набагато суворіші механізми контролю. Як зазначено у звіті, подальший розвиток штучного інтелекту має супроводжуватися посиленою модерацією, щоб уникнути використання чатботів для поширення насильства та екстремізму.

Сценарії, використані для тестування чат-ботів. Дані: CCDH.

Дослідники наголошують, що діалогові моделі штучного інтелекту мають стати безпечнішими для суспільства, а відповідальність за їхню експлуатацію та контроль повинна бути пріоритетом для розробників.