Ученые разработали академический экзамен, который не смог сдать ни один ИИ

hashtelegraph.com 2 ч

Analytics

Международная команда почти из 1000 ученых и специалистов из более чем 500 организаций в 50 странах создала новый тест для проверки искусственного интеллекта — и ни одна из существующих моделей не смогла пройти его даже наполовину. Тест получил название «Последний экзамен человечества» (Humanity’s Last Exam, HLE) и претендует на роль нового стандарта оценки реальных возможностей ИИ.

Причина появления HLE — стремительный прогресс языковых моделей. Современные системы ИИ начали набирать почти максимальные баллы в стандартных академических тестах, в частности в широко используемом Massive Multitask Language Understanding (MMLU). Это поставило исследователей перед очевидным вопросом: если модель набирает 90%+ в тесте, означает ли это, что она действительно понимает предмет — или просто научилась распознавать шаблоны?

Вывод оказался неудобным: старые тесты больше не позволяют точно оценить возможности ИИ. Нужен был экзамен принципиально другого уровня.

2500 вопросов, на которые нет готового ответа в интернете

В финальный экзамен вошло 2 500 вопросов из самых разных областей знаний:

математика и естественные науки;
гуманитарные дисциплины;
древние языки;
узкоспециализированные научные темы.

Каждый вопрос имеет один точный проверяемый ответ. При этом задания были составлены так, чтобы исключить возможность найти решение простым поиском в интернете. Некоторые задачи требуют перевода древних пальмирских надписей, определения мелких анатомических структур птиц или анализа особенностей произношения библейского иврита.

Методология отбора вопросов тоже нетривиальна: разработчики проверяли каждое задание с помощью современных систем ИИ. Если какая-либо модель давала правильный ответ, вопрос исключали из теста. В финальную версию попали только те задания, с которыми не справилась ни одна из существующих моделей. Всего в ходе отбора было зафиксировано более 70 000 попыток — и около 13 000 вопросов, с которыми модели не справились, перешли на этап экспертной проверки.

Чтобы привлечь к созданию теста ведущих специалистов, организаторы сформировали призовой фонд в $500 000: авторы лучших 50 вопросов получали по $5 000, следующие 500 участников — по $500 каждый.

Когда экзамен прошли ведущие модели искусственного интеллекта, цифры оказались весьма скромными: GPT-4o дал около 2,7% правильных ответов; Claude 3.5 Sonnet — 4,1%; OpenAI o1 — около 8%.

Более новые модели показали несколько лучшие результаты — Gemini 2.5 Pro и Claude Opus 4.6 достигли точности в районе 40–50%. Однако даже этот результат означает, что половина заданий так и не была решена верно.

Отдельного внимания заслуживает то, как именно модели ошибаются. Исследователи измерили не только точность, но и так называемую ошибку калибровки: насколько уверенность модели в ответе соответствует реальной вероятности его правильности. У большинства протестированных систем этот показатель превысил 70% — это означает, что модели раз за разом давали неверные ответы с высокой степенью уверенности, не распознавая границы собственных возможностей.

По словам одного из участников проекта, профессора Тунга Нгуена (Tung Nguyen) из Техасского университета A&M, задача экзамена — не доказать превосходство человека над машиной. «Интеллект — это не только распознавание шаблонов. Важны глубина понимания, контекст и специализированные знания», — отметил он.

Часть вопросов уже опубликована в открытом доступе, однако большинство заданий остаются скрытыми — чтобы модели ИИ не могли просто выучить ответы. Такой подход призван обеспечить долгосрочную актуальность теста как инструмента измерения реального прогресса.

Разрыв между возможностями ИИ и уровнем человеческих экспертов по-прежнему велик — и HLE впервые дает исследователям инструмент, позволяющий отслеживать, как этот разрыв сокращается. По мере того как будущие модели будут приближаться к отметке в 80–90%, индустрия получит более четкое представление о том, что именно стоит за понятием «экспертное знание» применительно к искусственному интеллекту.

Мнение ИИ

С точки зрения машинного анализа данных, наиболее показателен не сам процент правильных ответов, а ошибка калибровки: модели систематически демонстрируют высокую уверенность именно там, где ошибаются. Этот феномен — уверенное незнание — в когнитивной психологии известен как эффект Даннинга-Крюгера, и его присутствие в языковых моделях ставит практический вопрос: насколько можно доверять системам, которые не умеют обозначать пределы собственной компетентности?

Исторический контекст подсказывает: каждый предыдущий «непреодолимый» тест для ИИ сдавался быстрее, чем ожидалось. Тест GPQA считался сложным — модели преодолели его уровень за считанные месяцы. Сам HLE это признает, предусматривая механизм HLE-Rolling для регулярного обновления датасета. Вопрос не в том, сколько времени займет преодоление этого барьера, — а в том, что именно будет считаться следующим.