Штучний інтелект (ШІ) готовий отримати “відмінно” в одному з найскладніших тестів знань, відомого як “Останній іспит людства” (HLE), вже за кілька місяців. Розробники стверджують, що ця перевірка, яка складається з 2500 ретельно відібраних запитань з сотні тем – від ракетобудування до міфології та фізіології – вимагає рівня розуміння, подібного до докторського ступеня, і досягнення навіть близьких до 100% результатів дозволить отримати титул “універсального експерта”.

Всього два роки тому відомий чат-бот ChatGPT від OpenAI набрав жалюгідні 3% на цьому екзамені, а конкуренти з Google та Anthropic не продемонстрували значно кращих результатів. Той тест нібито мав заспокоїти побоювання щодо зростаючого домінування ШІ, оскільки дослідники стверджували, що він виявив “суттєву прірву” між великими мовними моделями (LLMs) та найкращими світовими академіками.
Проте, здавалося б, неможливий HLE може виявитися лише черговим етапом на шляху невпинного зростання ШІ. Минулого місяця Google Gemini продемонстрував вражаючі 45.9% на цьому екзамені, а за кілька місяців після першої спроби показав стрибок до 18.8%. Повне опанування цього тесту, як стверджують розробники, знаходиться вже на горизонті, про що говорить Келвін Чжан, керівник дослідницького відділу компанії Scale, яка розробила HLE.
“Ми прагнули створити цей замкнений академічний орієнтир, встановлений на рівні найдосвідченіших людей, який реально може вирішити лише невелика кількість людей на Землі,” – зазначив Чжан. Він також додав, що за останні кілька років спостерігається “шалений прогрес” у розвитку мовних моделей, і розробники моделей “дійсно добре попрацювали” над покращенням їхніх можливостей у сфері міркування.
Кейт Ольшевська, менеджерка продукту в Google DeepMind, висловила думку, що якщо б цією проблемою зайнялися всерйоз, то “досягли б цього досить швидко”. Компанія Anthropic, яка стоїть за системою Claude AI, вже досягла 34.2% на HLE і демонструє швидке покращення своїх результатів. Отримання ШІ 100% на цьому тесті буде значним досягненням, враховуючи, що, за словами авторів, він “розроблений як остаточний замкнений академічний орієнтир свого роду”.
Це означає, що якщо технологія подолає HLE, то в майбутньому її доведеться тестувати на питаннях, на які не знають відповідей жодні люди. Тест був створений дослідниками з Scale та Центру безпеки ШІ, неприбуткової організації, для оцінки як широти знань ШІ, так і глибини його міркувань. Експерти з приблизно 50 країн подали 70 000 питань для розгляду у відповідь на глобальний заклик у вересні 2024 року, в рамках якого був запропонований призовий фонд у 500 000 доларів.
До запитань висувалися вимоги короткої, однозначної відповіді, і щоб їх було важко знайти в Інтернеті. Список був скорочений до 13 000 після вилучення питань, на які вже могли відповісти існуючі моделі. Деякі з 2500 обраних питань згодом були видалені або змінені за результатами відгуків користувачів. Ці питання вимагають широкого спектру знань – від біології до володіння мовами, і багато з них залишаються в таємниці, щоб системи не могли скористатися загальнодоступною інформацією про відповіді.
Успіх на HLE може нагадати перемогу суперкомп’ютера IBM Deep Blue над чемпіоном світу з шахів Гаррі Каспаровим у 1997 році, що суперечило прогнозам більшості експертів. З того часу було подолано низку важливих тестів ШІ, зокрема багатодисциплінарний Massive Multitask Language Understanding, випущений у 2020 році, який було скасовано, оскільки системи почали проходити його надто легко, часто набираючи понад 90%. Ольшевська зазначила, що в міру того, як ШІ наближається до рівня опанування тестів, створених людьми, розширення за межі існуючих людських знань стає основним фокусом розробників. Однак, за словами Чжана, завжди залишиться місце для людського спеціалізованого досвіду, оскільки фізичні сфери, такі як хірургія, а також навички, що базуються на прийнятті рішень, як-от судження та креативність, залишатимуться складнішими для опанування ШІ.


