Искусственный интеллект (ИИ) готов получить «отлично» по одному из самых сложных тестов знаний, известному как «Последний экзамен человечества» (HLE), уже через несколько месяцев. Разработчики утверждают, что эта проверка, состоящая из 2500 тщательно отобранных вопросов по сотне тем – от ракетостроения до мифологии и физиологии – требует уровня понимания, сравнимого с докторской степенью, и достижение даже близких к 100% результатов позволит получить титул «универсального эксперта».

Всего два года назад известный чат-бот ChatGPT от OpenAI набрал жалкие 3% на этом экзамене, а конкуренты из Google и Anthropic не продемонстрировали значительно лучших результатов. Тот тест якобы должен был успокоить опасения по поводу растущего доминирования ИИ, поскольку исследователи утверждали, что он выявил «существенный разрыв» между большими языковыми моделями (LLMs) и лучшими мировыми академиками.
Однако, казалось бы, невозможный HLE может оказаться лишь очередным этапом на пути неуклонного роста ИИ. В прошлом месяце Google Gemini продемонстрировал впечатляющие 45,9% на этом экзамене, а через несколько месяцев после первой попытки показал скачок до 18,8%. Полное освоение этого теста, как утверждают разработчики, находится уже на горизонте, о чем говорит Келвин Чжан, руководитель исследовательского отдела компании Scale, которая разработала HLE.
«Мы стремились создать этот замкнутый академический ориентир, установленный на уровне наиболее опытных людей, который реально может решить лишь небольшое количество людей на Земле,» – отметил Чжан. Он также добавил, что за последние несколько лет наблюдается «бешеный прогресс» в развитии языковых моделей, и разработчики моделей «действительно хорошо поработали» над улучшением их возможностей в области рассуждений.
Кейт Ольшевская, менеджер продукта в Google DeepMind, высказала мнение, что если бы этой проблемой занялись всерьез, то «достигли бы этого довольно быстро». Компания Anthropic, которая стоит за системой Claude AI, уже достигла 34,2% на HLE и демонстрирует быстрое улучшение своих результатов. Получение ИИ 100% на этом тесте будет значительным достижением, учитывая, что, по словам авторов, он «разработан как окончательный замкнутый академический ориентир своего рода».
Это означает, что если технология преодолеет HLE, то в будущем ее придется тестировать на вопросах, на которые не знают ответов ни один человек. Тест был создан исследователями из Scale и Центра безопасности ИИ, неприбыльной организации, для оценки как широты знаний ИИ, так и глубины его рассуждений. Эксперты из примерно 50 стран подали 70 000 вопросов для рассмотрения в ответ на глобальный призыв в сентябре 2024 года, в рамках которого был предложен призовой фонд в 500 000 долларов.
К вопросам выдвигались требования краткого, однозначного ответа, и чтобы их было трудно найти в Интернете. Список был сокращен до 13 000 после изъятия вопросов, на которые уже могли ответить существующие модели. Некоторые из 2500 отобранных вопросов впоследствии были удалены или изменены по результатам отзывов пользователей. Эти вопросы требуют широкого спектра знаний – от биологии до владения языками, и многие из них остаются в тайне, чтобы системы не могли воспользоваться общедоступной информацией об ответах.
Успех на HLE может напомнить победу суперкомпьютера IBM Deep Blue над чемпионом мира по шахматам Гарри Каспаровым в 1997 году, что противоречило прогнозам большинства экспертов. С тех пор был преодолен ряд важных тестов ИИ, в частности многодисциплинарный Massive Multitask Language Understanding, выпущенный в 2020 году, который был отменен, поскольку системы начали проходить его слишком легко, часто набирая более 90%. Ольшевская отметила, что по мере того, как ИИ приближается к уровню освоения тестов, созданных людьми, расширение за пределы существующих человеческих знаний становится основным фокусом разработчиков. Однако, по словам Чжана, всегда останется место для человеческого специализированного опыта, поскольку физические сферы, такие как хирургия, а также навыки, основанные на принятии решений, вроде суждения и креативности, будут оставаться более сложными для освоения ИИ.


