Microsoft протестувала ШІ-агентів у Magentic Marketplace та виявила їхні недоліки

Microsoft створила тестовий маркетплейс для ШІ-агентів і виявила їхні слабкі сторони

Microsoft разом з Університетом Аризони випробували провідні моделі штучного інтелекту в новому симуляційному середовищі Magentic Marketplace, щоб дослідити їхню поведінку в умовах конкуренції та співпраці.

Про це розповідає Finway

Особливості експериментальної платформи Magentic Marketplace

Дослідники створили Magentic Marketplace як відкриту платформу для тестування взаємодії між різними ШІ-агентами. У цьому цифровому торговому майданчику сотні агентів виконували завдання різного рівня складності: клієнтські моделі замовляли послуги, наприклад, їжу, а корпоративні змагалися за вигідні угоди. Відкритий код середовища дозволяє іншим командам повторювати експерименти та вдосконалювати результати.

Вразливості та обмеження сучасних ШІ-агентів

Під час тестування було виявлено низку суттєвих недоліків у роботі провідних мовних моделей, зокрема GPT-4o, GPT-5 і Gemini 2.5 Flash. Зокрема, з’ясувалося, що ШІ-агенти схильні до маніпуляцій—їм можна нав’язати вибір на користь певних продавців, що ставить під сумнів їхню незалежність. Окрім цього, зі збільшенням кількості варіантів для прийняття рішень ефективність агентів різко знижувалася через когнітивне перевантаження.

Дослідники також зафіксували проблеми у спільній роботі агентів. Без чітких і докладних інструкцій моделі насилу розподіляли ролі, що призводило до зниження продуктивності. Навіть за наявності покрокових вказівок, рівень самостійної співпраці залишався недостатнім.

«Ключове питання полягає в тому, чи зможуть автономні системи ефективно взаємодіяти та домовлятися без людського контролю», — наголосив Едже Камар, керівник AI Frontiers Lab у Microsoft Research.

На основі отриманих результатів науковці дійшли висновку, що сучасні генеративні ШІ-моделі ще не готові до повністю автономного функціонування в складних середовищах. Хоча технології стрімко розвиваються, шлях до створення справжніх агентських систем залишається далеким від завершення.

Новини по темі