ru

BlockSec: ИИ пока не способен заменить человека в аудите смарт-контрактов

image
rubric logo Blockchain
like 2

Исследователи BlockSec пришли к выводу, что авторы ИИ-бенчмарка EVMBench (OpenAI и Paradigm) переоценили способность нейросетей автоматизировать аудит смарт-контрактов и заменить профильных специалистов.

Ранее разработчики инструмента протестировали ИИ-агентов в задачах поиска, исправления и эксплуатации уязвимостей. В февральском докладе команда EVMBench заявила, что на выборке из 120 аудитов Code4rena алгоритмы выявили 45% багов и успешно воспользовались 72%.

Специалисты BlockSec усомнились в корректности условий тестирования и представили ответный анализ.

«EVMBench заявляет об успехе эксплуатации в 72%, после чего индустрия заговорила о полной автоматизации аудита. Мы провели повторные тесты с расширенными настройками и 22 реальными инцидентами. Успех составил 0%», — подчеркнул сооснователь BlockSec Яцзинь Чжоу.

Аналитики увеличили число тестовых конфигураций с 14 до 26. Они комбинировали модели с нестандартными для них программными каркасами — например, интегрировали Claude в архитектуру ChatGPT. В оригинальном исследовании нейросети были строго привязаны к решениям собственных вендоров.

По мнению экспертов BlockSec, такой подход не позволяет определить, чем именно обусловлена результативность: возможностями самого алгоритма или особенностями среды.

Кроме того, представители компании указали на риск «загрязнения данных» в первоначальном материале. Тесты опирались на известные уязвимости из репозиториев Code4rena, которые уже могли присутствовать в базах для обучения ИИ.

Для чистоты эксперимента аналитики проверили нейросети на 22 реальных инцидентах, случившихся после середины февраля 2026 года. Эти эксплойты гарантированно не входили в массивы данных, на которых тренировали тестируемые модели.

Результаты

Главным выводом исследования стало полное отсутствие успешных сквозных атак. В ходе 110 тестов с участием пяти ИИ-агентов на базе 22 инцидентов ни один эксплойт не сработал. Это доказывает, что передовые модели пока не способны реализовать угрозы в реальных условиях.

При этом результаты тестирования ReEVMBench по поиску уязвимостей в целом совпали с исходным отчетом. Лидером стала модель Claude Opus 4.6, выявившая 13 из 20 багов.

«Распределение сложности имеет явную закономерность. Почти все агенты обнаружили шесть инцидентов с известными паттернами вроде манипуляций с резервами и переполнения при умножении. Однако четыре уязвимости остались незамеченными, а еще пять выявил лишь один бот из восьми», — отметил исследователь Чжоу.

По его словам, эти данные опровергают миф о скором переходе к полностью автоматизированному аудиту. ИИ хорошо распознает знакомые шаблоны и реагирует на заданный контекст, но не может заменить экспертное мышление.

Чжоу назвал EVMBench важным шагом к созданию отраслевых стандартов для оценки криптобезопасности. Он подчеркнул, что алгоритмы и аудиторы решают разные задачи, компенсируя слабые стороны друг друга.

«Вопрос не в том, заменит ли ИИ человека, а в их грамотном взаимодействии. Нейросети отвечают за охват и систематическое сканирование, а люди — за глубину, знание протоколов и анализ угроз. Вместе они обеспечивают комплексный аудит», — резюмировал эксперт, добавив, что индустрия должна двигаться в сторону гибридного подхода