Штучний інтелект може перевершити всіх експертів людства за рік – пророкують ті самі експерти

31 Березня 2026

Штучний інтелект (ШІ) готовий отримати “відмінно” в одному з найскладніших тестів знань, відомого як “Останній іспит людства” (HLE), вже за кілька місяців. Розробники стверджують, що ця перевірка, яка складається з 2500 ретельно відібраних запитань з сотні тем – від ракетобудування до міфології та фізіології – вимагає рівня розуміння, подібного до докторського ступеня, і досягнення навіть близьких до 100% результатів дозволить отримати титул “універсального експерта”.

Всього два роки тому відомий чат-бот ChatGPT від OpenAI набрав жалюгідні 3% на цьому екзамені, а конкуренти з Google та Anthropic не продемонстрували значно кращих результатів. Той тест нібито мав заспокоїти побоювання щодо зростаючого домінування ШІ, оскільки дослідники стверджували, що він виявив “суттєву прірву” між великими мовними моделями (LLMs) та найкращими світовими академіками.

Проте, здавалося б, неможливий HLE може виявитися лише черговим етапом на шляху невпинного зростання ШІ. Минулого місяця Google Gemini продемонстрував вражаючі 45.9% на цьому екзамені, а за кілька місяців після першої спроби показав стрибок до 18.8%. Повне опанування цього тесту, як стверджують розробники, знаходиться вже на горизонті, про що говорить Келвін Чжан, керівник дослідницького відділу компанії Scale, яка розробила HLE.

“Ми прагнули створити цей замкнений академічний орієнтир, встановлений на рівні найдосвідченіших людей, який реально може вирішити лише невелика кількість людей на Землі,” – зазначив Чжан. Він також додав, що за останні кілька років спостерігається “шалений прогрес” у розвитку мовних моделей, і розробники моделей “дійсно добре попрацювали” над покращенням їхніх можливостей у сфері міркування.

Кейт Ольшевська, менеджерка продукту в Google DeepMind, висловила думку, що якщо б цією проблемою зайнялися всерйоз, то “досягли б цього досить швидко”. Компанія Anthropic, яка стоїть за системою Claude AI, вже досягла 34.2% на HLE і демонструє швидке покращення своїх результатів. Отримання ШІ 100% на цьому тесті буде значним досягненням, враховуючи, що, за словами авторів, він “розроблений як остаточний замкнений академічний орієнтир свого роду”.

Це означає, що якщо технологія подолає HLE, то в майбутньому її доведеться тестувати на питаннях, на які не знають відповідей жодні люди. Тест був створений дослідниками з Scale та Центру безпеки ШІ, неприбуткової організації, для оцінки як широти знань ШІ, так і глибини його міркувань. Експерти з приблизно 50 країн подали 70 000 питань для розгляду у відповідь на глобальний заклик у вересні 2024 року, в рамках якого був запропонований призовий фонд у 500 000 доларів.

До запитань висувалися вимоги короткої, однозначної відповіді, і щоб їх було важко знайти в Інтернеті. Список був скорочений до 13 000 після вилучення питань, на які вже могли відповісти існуючі моделі. Деякі з 2500 обраних питань згодом були видалені або змінені за результатами відгуків користувачів. Ці питання вимагають широкого спектру знань – від біології до володіння мовами, і багато з них залишаються в таємниці, щоб системи не могли скористатися загальнодоступною інформацією про відповіді.

Успіх на HLE може нагадати перемогу суперкомп’ютера IBM Deep Blue над чемпіоном світу з шахів Гаррі Каспаровим у 1997 році, що суперечило прогнозам більшості експертів. З того часу було подолано низку важливих тестів ШІ, зокрема багатодисциплінарний Massive Multitask Language Understanding, випущений у 2020 році, який було скасовано, оскільки системи почали проходити його надто легко, часто набираючи понад 90%. Ольшевська зазначила, що в міру того, як ШІ наближається до рівня опанування тестів, створених людьми, розширення за межі існуючих людських знань стає основним фокусом розробників. Однак, за словами Чжана, завжди залишиться місце для людського спеціалізованого досвіду, оскільки фізичні сфери, такі як хірургія, а також навички, що базуються на прийнятті рішень, як-от судження та креативність, залишатимуться складнішими для опанування ШІ.

Теги
Історії

357

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Коментуйте, будь-ласка!

Будь ласка введіть ваше ім'я

Ви ввели некорректний Email

Ваш Email

Штучний інтелект може перевершити всіх експертів людства за рік – пророкують ті самі експерти

Apple дозволить обирати сторонні AI-моделі в iOS 27

Чому інтернет та зв’язок в Україні ворогу не вдалося вимкнути – пояснює Держспецзв’язку

Nokia оголосила додатковий рік патчів для деяких моделей 2017 року

Украинцы могут заказывать еду с iPhone

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Понад 25 ТБ даних у перший день 5G у Києві

Future You: у Києві відкрили інтерактивну AI-інсталяцію, де можна зустрітися із собою з майбутнього

Vodafone запустив 5G у всіх районах Києва

200 тисяч клієнтів протестували 5G у Харкові

Vodafone Україна побудує надсучасний підземний дата-центр

Статті

Опитування на телефоні: як обіцяють заробіток, а платять копійки

Виробники використовують одноразові батарейки задля економії на виготовленні акумуляторів

Космічне кільце на Місяці: нескінченна енергія на Землю чи чергова мрія?

Конкуренція мільярдерів на орбіті: хто першим висадить людей на Місяць

П’ять популярних аксесуарів для смартфонів, що лише марнують гроші та створюють ілюзію безпеки

AI-відновлення фото підміняє обличчя родичів, знищуючи справжню сімейну історію

Як виходить, що ви обігнали когось на дорозі, а він знову з’являється попереду: вчені пояснили невидиму силу статистики

ПОРАДИ

Як заборонити Instagram використовувати дані про ваші покупки для показу реклами

Як зберігати місця в Google Картах для спрощеного планування подорожей

Як отримати манікюр з ефектом котячого ока за допомогою зарядки Apple Watch

СТАТТІ

Опитування на телефоні: як обіцяють заробіток, а платять копійки

Виробники використовують одноразові батарейки задля економії на виготовленні акумуляторів

Космічне кільце на Місяці: нескінченна енергія на Землю чи чергова мрія?

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Штучний інтелект може перевершити всіх експертів людства за рік – пророкують ті самі експерти

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ