Если вы ищете новый повод для волнения по поводу искусственного интеллекта, вот вам причина: у самых умных людей мира есть проблема создать тесты, какие системы искусственного интеллекта (ИИ) не могут пройти. Им удалось создать тест, позволяющий отличить алгоритм от реального человека. Но когда машины смогут пройти этот тест, названный «последним экзаменом, что ты человек», человечество ожидают проблемы, говорят авторы теста.
В течение многих лет системы ИИ оценивали, давая им разные стандартизированные контрольные тесты. Многие из этих тестов состояли из заданий уровня школьного экзамена в таких областях, как математика, наука и логика. Сравнение результатов моделей со временем служило приблизительной мерой прогресса ИИ.
Однако системы ИИ стали слишком успешными в выполнении этих тестов, поэтому были созданы новые, более сложные задачи — часто такого типа, которые могли бы случиться аспирантам на их экзаменах.
Эти тесты тоже не устояли. Новые модели ИИ от таких компаний как OpenAI, Google и Anthropic получают высокие баллы на многих задачах уровня кандидата наук, что ограничивает полезность этих тестов и порождает пугающий вопрос: становятся ли системы ИИ слишком умными, чтобы их можно было оценить?
На этой неделе исследователи из Центра безопасности ИИ и Scale AI выпустили возможный ответ на этот вопрос: новую оценку под названием «Последний экзамен человечества», которую они называют самым сложным тестом, когда-либо проводимым для систем ИИ.
«Последний экзамен человечества» является идеей Дэна Хендрикса, известного исследователя по безопасности ИИ и директора Центра безопасности ИИ. Оригинальное название теста, «Последний бой человечества», было отклонено из-за чрезмерной драматичности.
Мистер Хендрикс работал со Scale AI, компанией в области ИИ, где он является советником, над созданием теста, состоящего из примерно 3000 вопросов с вариантами ответов и задач с краткими ответами, предназначенных для оценки способностей систем ИИ в таких областях, как аналитическая философия и ракетная инженерия.
Вопросы предоставлялись экспертами в соответствующих отраслях, включая университетских профессоров и лауреатов математических премий, которые создавали сложнейшие задачи, ответы на которые они точно знали.
Вот, попробуйте ответить на вопрос об анатомии колибри из этого теста:
Колибри в пределах ряда Apodiformes уникально имеют двустороннюю овальную кость, сезамовидную кость, встроенную в каудолатеральную часть расширенного крестообразного апоневроза прикрепления мышцы депрессора хвоста. Сколько пар сухожилий поддерживает эта сезамовидная кость? Ответ в виде числа.
Или, если вам более близка физика, вот еще одно:
Блок расположен на горизонтальной рейке, по которой он может скользить без трения. Он прикреплен к концу жесткого, безмассового стержня длины R. На другом конце прикреплена масса. Оба объекта имеют вес W. Система поначалу находится в состоянии покоя, при этом масса расположена прямо над блоком. Массу толкают на бесконечно малую величину, параллельно рейке. Предположим, что система сконструирована так, что стержень может вращаться на 360 градусов без помех. Когда стержень горизонтальный, он несет натяжение T1. Когда стержень снова вертикальный, с массой прямо под блоком, он несет натяжение T2. (Эти величины могут быть отрицательными, что указывает на сжатие стержня.) Чему равно (T1?T2)/W?
Вопросы «Последнего экзамена человечества» проходили двухэтапный процесс фильтрации. Первоначально предложенные задачи давали ведущим моделям ИИ для решения.
Если модели не могли ответить на них (или, в случае вопросов с вариантами ответов, модели показывали результат хуже случайного угадывания), вопросы присылали группе рецензентов-людей, которые уточняли их и проверяли правильность ответов. Эксперты, создавшие лучшие вопросы, получали от 500 до 5000 долларов США за каждое задание, а также признание за вклад в тест.
Кевин Чжоу, постдок в области теоретической физики частиц в Университете Калифорнии, Беркли, представил несколько вопросов к тесту. Три его задачи были избраны, и, по его словам, они находятся на верхнем уровне того, что можно встретить на аспирантском экзамене.
Мистер Хендрикс, который помог создать широко используемый тест для ИИ под названием Massive Multitask Language Understanding (MMLU), сказал, что разговор с Илоном Маском вдохновил его создать более сложные тесты. Мистер Хендрикс также советник по безопасности в компании ШИ Илона Маска, xAI. Маск, по его словам, выражал обеспокоенность существующими тестами для моделей ИИ, которые он считал слишком простыми.
«Илон посмотрел на вопрос MMLU и сказал: «Это уровень бакалавра. Я хочу задачи, которые может решить мировой эксперт»», — сказал Хендрикс.
Есть и другие тесты, пытающиеся оценить возможности ИИ в определенных областях, например FrontierMath, тест, разработанный Epoch AI, и ARC-AGI, созданный исследователем ИИ Франсуа Шолле.
Но «Последний экзамен человечества» направлен на определение того, насколько хорошо системы ИИ отвечают на сложные вопросы по различным академическим дисциплинам, предоставляя нам то, что можно считать оценкой общего интеллекта.
«Мы пытаемся оценить, насколько ИИ может автоматизировать много действительно сложного интеллектуального труда», — сказал Хендрикс.
Когда список задач был составлен, исследователи провели тест «Последний экзамен человечества» на шести ведущих моделях ИИ, включая Gemini 1.5 Pro от Google и Claude 3.5 Sonnet от Anthropic. Все они провалили тест. Система OpenAI ChatGPT о1 показала самый лучший результат с баллом 8,3%.
Хендрикс ожидает, что эти показатели будут быстро расти и потенциально превысят 50% к концу года. На тот момент, по его словам, системы ИИ могут стать «оракулами мирового класса», способными отвечать на любые вопросы более точно, чем человеческие эксперты.
По материалам: NY Times