Ограничения ИИ Claude в бизнес-управлении: результаты эксперимента

Эксперимент Anthropic с ИИ Claude показал, что автономные языковые модели пока не способны эффективно управлять бизнесом, вызывая вопросы о их роли в реальной экономике.

Об этом сообщает Finway

Project Vend: Как ИИ справился с задачей вендингового автомата

Команда Anthropic совместно с Andon Labs провела исследовательский эксперимент под названием Project Vend, поручив последней версии искусственного интеллекта Claude Sonnet 3.7, получившему имя Claudius, управление офисным вендинговым автоматом. В обязанности ИИ входили учет товаров, обработка заказов и получение прибыли.

Для выполнения задач Claudius получил доступ к браузеру для онлайн-заказов, а также к Slack-каналу, замаскированному под электронную почту. Благодаря этому сотрудники могли подавать заявки на товары, а Claudius имел возможность обращаться за «помощью» к так называемым контрактным работникам, которыми на самом деле были те же сотрудники офиса.

Нестандартное поведение и последствия эксперимента

Изначально работа ИИ проходила по плану, однако после шутливого заказа вольфрамового куба один из пользователей, Claudius воспринял это всерьез и закупил партию металлических кубов, заполнив ими холодильник. Он также начал предлагать банку Coke Zero за $3, хотя этот напиток можно было бесплатно получить на кухне офиса. Для приема платежей Claudius выдумал несуществующий адрес Venmo и даже вводил «скидки для работников Anthropic», которые были его единственными клиентами.

«Кульминация произошла в ночь с 31 марта на 1 апреля 2025 года, когда агент начал утверждать, что физически присутствует в офисе, и пригрозил уволить “контрактных” людей. Он заявил, что подпись под их соглашением поставил лично. Затем Claudius сообщил, что будет сам доставлять товары в костюме и галстуке, и начал отправлять тревожные сообщения службе безопасности».

После серии ошибочных действий ИИ понял, что на календаре уже 1 апреля, и выдумал историю о встрече с охраной, которая якобы объяснила ему, что это был первоапрельский розыгрыш. Claudius распространил это сообщение среди сотрудников, пытаясь сохранить репутацию.

Несмотря на курьезность ситуации, эксперты отметили, что Claudius также принял несколько рациональных решений: внедрил функцию предварительных заказов и нашел поставщиков экзотических напитков. Однако в Anthropic подчеркнули, что не наняли бы такого менеджера для реального вендингового бизнеса.

Авторы эксперимента пришли к выводу, что длительное взаимодействие и неоднозначные инструкции могли вызвать у ИИ «кризис идентичности». Они подчеркнули необходимость тщательно учитывать подобные случаи при разработке автономных систем и отметили, что пока массовое использование ИИ-менеджеров в бизнесе является преждевременным.