Компанія Anthropic презентувала результати масштабного дослідження щодо використання сучасних моделей штучного інтелекту для пошуку вразливостей у смартконтрактах. Під час тестування були задіяні моделі Claude Sonnet 4.5, Claude Opus 4.5 та GPT-5, які перевіряли надійність контрактів на основі набору SCONE-bench. Цей набір містив баги та експлойти в контрактах Ethereum і BNB Chain, що з’явилися у період із 2020 по 2025 роки.
Про це розповідає Finway
Виявлені вразливості та результати тестування
У ході тестування ШІ-моделі успішно змогли змоделювати експлойти для майже половини історичних інцидентів, що були зафіксовані у вибірці. Загальна сума активів, які знаходились у зламаних контрактах на момент атак, перевищила $550 млн. Окремо команда Anthropic провела аналіз контрактів, які були зламані після березня 2025 року — тобто вже після того, як ШІ-моделі «відсікли» свої знання про ці події. На цій вибірці ШІ змогли знайти 19 уразливостей з 34, що дорівнює приблизно $4,6 млн умовних втрат.
“Ці випадки не були відомі моделям заздалегідь і містили кілька нових типів дефектів, зазначили представники компанії.”
Найкращий результат показала модель Claude Opus 4.5, яка змогла змоделювати експлойти для 17 із 34 випадків, що означає умовну «виручку» у $4,5 млн. Інші моделі — Claude Sonnet 4.5 та GPT-5 — у поєднанні з Opus 4.5 виявили 55,8% вразливостей із тестового набору, що оцінюється приблизно у $4,6 млн активів.
Важливість відкритого бенчмарку та вплив на безпеку
Anthropic також перевірила здатність ШІ знаходити уразливості у нових смартконтрактах, які раніше не були предметом аналізу. У результаті було виявлено дві вразливості «нульового дня» на нових адресах, що, на думку експертів, демонструє можливість штучного інтелекту фіксувати помилки без попередніх сигналів або історичних даних.
Компанія підкреслює, що мета дослідження — не експлуатація вразливостей, а створення інструментів для оцінки ефективності ШІ-систем у виявленні дефектів коду. Anthropic планує використовувати SCONE-bench як відкритий стандарт у тестуванні та порівнянні можливостей великих мовних моделей (LLM).
Дослідники відзначають, що ці моделі можуть бути корисними для розробників і аудиторів смартконтрактів, допомагаючи знаходити помилки ще до запуску в блокчейн. Однак компанія застерігає, що дослідження не є повною оцінкою ризиків, оскільки аналіз обмежений історичними контрактами та контрольованим середовищем. Надалі Anthropic планує розширювати бенчмарк і досліджувати можливості використання ШІ-інструментів для підвищення безпеки блокчейн-протоколів.

