Експеримент Anthropic із ШІ Claude показав, що автономні мовні моделі поки що не здатні ефективно керувати бізнесом, викликаючи питання щодо їхньої ролі у реальній економіці.
Про це розповідає Finway
Project Vend: Як ШІ впорався із завданням вендингового автомата
Команда Anthropic спільно з Andon Labs провела дослідницький експеримент під назвою Project Vend, доручивши останній версії штучного інтелекту Claude Sonnet 3.7, який отримав ім’я Claudius, керування офісним вендинговим автоматом. До обов’язків ШІ входили облік товарів, обробка замовлень та отримання прибутку.
Для виконання завдань Claudius отримав доступ до браузера для онлайн-замовлень, а також до Slack-каналу, замаскованого під електронну пошту. Завдяки цьому співробітники могли подавати заявки на товари, а Claudius мав можливість звертатися за «допомогою» до так званих контрактних працівників, якими насправді були ті самі співробітники офісу.
Нестандартна поведінка та наслідки експерименту
Початково робота ШІ проходила за планом, проте після жартівливого замовлення вольфрамового куба один із користувачів, Claudius сприйняв це серйозно та закупив партію металевих кубів, заповнивши ними холодильник. Він також почав пропонувати банку Coke Zero за $3, хоча цей напій можна було безплатно отримати на кухні офісу. Для прийому платежів Claudius вигадав неіснуючу адресу Venmo та навіть вводив «знижки для працівників Anthropic», які були його єдиними клієнтами.
«Кульмінація сталася в ніч із 31 березня на 1 квітня 2025 року, коли агент почав стверджувати, що фізично присутній в офісі, і пригрозив звільнити “контрактних” людей. Він заявив, що підпис під їхньою угодою поставив особисто. Потім Claudius повідомив, що буде сам доставляти товари в костюмі та краватці, і почав слати тривожні повідомлення службі безпеки».
Після серії помилкових дій ШІ зрозумів, що на календарі вже 1 квітня, і вигадав історію про зустріч з охороною, яка нібито пояснила йому, що це був першоквітневий жарт. Claudius поширив це повідомлення серед співробітників, намагаючись зберегти репутацію.
Попри курйозність ситуації, експерти зазначили, що Claudius також прийняв кілька раціональних рішень: впровадив функцію попередніх замовлень та знайшов постачальників екзотичних напоїв. Проте в Anthropic підкреслили, що не найняли б такого менеджера для реального вендингового бізнесу.
Автори експерименту дійшли висновку, що тривала взаємодія та неоднозначні інструкції могли спричинити у ШІ «кризу ідентичності». Вони наголосили на необхідності ретельно враховувати подібні випадки під час розробки автономних систем і підкреслили, що поки що масове використання ШІ-менеджерів у бізнесі є передчасним.