Microsoft тестирует ИИ-агентов в Magentic Marketplace

Microsoft совместно с Университетом Аризоны испытали ведущие модели искусственного интеллекта в новом симуляционном окружении Magentic Marketplace, чтобы исследовать их поведение в условиях конкуренции и сотрудничества.

Об этом сообщает Finway

Особенности экспериментальной платформы Magentic Marketplace

Исследователи создали Magentic Marketplace как открытую платформу для тестирования взаимодействия между различными ИИ-агентами. На этом цифровом торговом майданчике сотни агентов выполняли задачи различного уровня сложности: клиентские модели заказывали услуги, например, еду, а корпоративные конкурировали за выгодные сделки. Открытый код окружения позволяет другим командам повторять эксперименты и совершенствовать результаты.

Уязвимости и ограничения современных ИИ-агентов

Во время тестирования было выявлено ряд существенных недостатков в работе ведущих языковых моделей, в частности GPT-4o, GPT-5 и Gemini 2.5 Flash. В частности, выяснилось, что ИИ-агенты подвержены манипуляциям — им можно навязать выбор в пользу определенных продавцов, что ставит под сомнение их независимость. Кроме того, с увеличением количества вариантов для принятия решений эффективность агентов резко снижалась из-за когнитивной перегрузки.

Исследователи также зафиксировали проблемы в совместной работе агентов. Без четких и подробных инструкций модели с трудом распределяли роли, что приводило к снижению продуктивности. Даже при наличии пошаговых указаний уровень самостоятельного сотрудничества оставался недостаточным.

«Ключевой вопрос заключается в том, смогут ли автономные системы эффективно взаимодействовать и договариваться без человеческого контроля», — подчеркнул Эдже Камар, руководитель AI Frontiers Lab в Microsoft Research.

На основе полученных результатов ученые пришли к выводу, что современные генеративные ИИ-модели еще не готовы к полностью автономному функционированию в сложных условиях. Хотя технологии стремительно развиваются, путь к созданию настоящих агентских систем остается далеким от завершения.