Створено «останній іспит, що ти людина». Коли ШІ зможе його пройти – людство чекають проблеми

24 Січня 2025

Якщо ви шукаєте новий привід для хвилювання щодо штучного інтелекту, ось вам причина: у найрозумніших людей світу є проблема створити тести, які системи штучного інтелекту (ШІ) не можуть пройти. Їм вдалося створити тест, який дозволяє відрізнити алгоритм від реальної людини. Але коли машини зможуть пройти цей тест, названий «останній іспит, що ти людина», людство очікують проблеми, кажуть автори тесту.

Протягом багатьох років системи ШІ оцінювали, даючи їм різні стандартизовані контрольні тести. Багато з цих тестів складалися з завдань рівня шкільного екзамену у таких галузях, як математика, наука і логіка. Порівняння результатів моделей з часом служило приблизною мірою прогресу ШІ.

Однак системи ШІ стали надто успішними у виконанні цих тестів, тому були створені нові, складніші завдання — часто такого типу, які могли б трапитися аспірантам на їхніх іспитах.

Ці тести також не встояли. Нові моделі ШІ від таких компаній, як OpenAI, Google та Anthropic, отримують високі бали на багатьох завданнях рівня кандидата наук, що обмежує корисність цих тестів і породжує лякаюче питання: чи стають системи ШІ занадто розумними, щоб їх можна було оцінити?

Цього тижня дослідники з Центру безпеки ШІ та Scale AI випустили можливу відповідь на це питання: нову оцінку під назвою «Останній екзамен людства», яку вони називають найскладнішим тестом, який будь-коли проводився для систем ШІ.

«Останній екзамен людства» є ідеєю Дена Хендрикса, відомого дослідника з безпеки ШІ та директора Центру безпеки ШІ. Оригінальна назва тесту, «Останній бій людства», була відхилена через надмірну драматичність.

Містер Хендрикс працював зі Scale AI, компанією у сфері ШІ, де він є радником, над створенням тесту, який складається з приблизно 3000 питань з варіантами відповідей і завдань з короткими відповідями, призначених для оцінки здібностей систем ШІ у таких сферах, як аналітична філософія та ракетна інженерія.

Питання надавалися експертами у відповідних галузях, включаючи університетських професорів та лауреатів математичних премій, які створювали надзвичайно складні завдання, відповіді на які вони точно знали.

Ось, спробуйте відповісти на питання про анатомію колібрі з цього тесту:

Колібрі в межах ряду Apodiformes унікально мають двобічну овальну кістку, сезамоподібну кістку, вбудовану в каудолатеральну частину розширеного хрестоподібного апоневрозу прикріплення м’яза депресора хвоста. Скільки пар сухожиль підтримує ця сезамоподібна кістка? Відповідь у вигляді числа.

Або, якщо вам ближча фізика, ось ще одне:

Блок розміщено на горизонтальній рейці, по якій він може ковзати без тертя. Він прикріплений до кінця жорсткого, безмасового стержня довжини R. На іншому кінці прикріплено масу. Обидва об’єкти мають вагу W. Система спочатку перебуває у стані спокою, при цьому маса розташована прямо над блоком. Масу штовхають на нескінченно малу величину, паралельно рейці. Припустимо, що система сконструйована так, що стержень може обертатися на 360 градусів без перешкод. Коли стержень горизонтальний, він несе натяг T1. Коли стержень знову вертикальний, із масою прямо під блоком, він несе натяг T2. (Ці величини можуть бути від’ємними, що вказує на стиснення стержня.) Чому дорівнює (T1?T2)/W?

Питання з «Останнього екзамену людства» проходили двоетапний процес фільтрації. Спочатку запропоновані завдання давали провідним моделям ШІ для вирішення.

Якщо моделі не могли відповісти на них (або, у випадку питань з варіантами відповідей, моделі показували результат гірший, ніж випадкове вгадування), питання надсилали групі рецензентів-людей, які уточнювали їх та перевіряли правильність відповідей. Експерти, які створили найкращі питання, отримували від 500 до 5000 доларів США за кожне завдання, а також визнання за внесок у тест.

Кевін Чжоу, постдок у галузі теоретичної фізики частинок в Університеті Каліфорнії, Берклі, подав кілька запитань до тесту. Три його завдання були обрані, і, за його словами, вони на верхньому рівні того, що можна зустріти на аспірантському іспиті.

Містер Хендрикс, який допоміг створити широко використовуваний тест для ШІ під назвою Massive Multitask Language Understanding (M.M.L.U.), сказав, що розмова з Ілоном Маском надихнула його створити складніші тести. Містер Хендрикс також є радником із безпеки в компанії ШІ Ілона Маска, xAI. Маск, за його словами, висловлював занепокоєння щодо існуючих тестів для моделей ШІ, які він вважав надто простими.

«Ілон подивився на питання M.M.L.U. і сказав: “Це рівень бакалавра. Я хочу завдання, які може вирішити світовий експерт”», — сказав Хендрикс.

Є й інші тести, які намагаються оцінити можливості ШІ у певних галузях, наприклад FrontierMath, тест, розроблений Epoch AI, та ARC-AGI, створений дослідником ШІ Франсуа Шолле.

Але «Останній екзамен людства» спрямований на визначення того, наскільки добре системи ШІ відповідають на складні питання з різних академічних дисциплін, надаючи нам те, що можна вважати оцінкою загального інтелекту.

«Ми намагаємося оцінити, наскільки ШІ може автоматизувати багато справді складної інтелектуальної праці», — сказав Хендрикс.

Коли список завдань був складений, дослідники провели тест «Останній екзамен людства» на шести провідних моделях ШІ, включаючи Gemini 1.5 Pro від Google і Claude 3.5 Sonnet від Anthropic. Усі вони провалили тест. Система OpenAI ChatGPT о1 показала найкращий результат із балом 8,3%.

Хендрикс очікує, що ці показники швидко зростатимуть і потенційно перевищать 50% до кінця року. На той момент, за його словами, системи ШІ можуть стати «оракулами світового класу», здатними відповідати на будь-які питання точніше, ніж людські експерти.

За матеріалами: NY Times

Теги
Історії

984

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Коментуйте, будь-ласка!

Будь ласка введіть ваше ім'я

Ви ввели некорректний Email

Ваш Email

Створено «останній іспит, що ти людина». Коли ШІ зможе його пройти – людство чекають проблеми

На смартфоні Honor Magic 6 додатки можна запускати очима

Apple Photos отримає нові AI-інструменти редагування

Цифровая музыка: товар, который не продается

Новий Рік та Різдво по інтернету: 5 порад, як провести святкові дні у віддаленому режимі

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

В якому районі Києва найбільше користуються 5G

Понад 25 ТБ даних у перший день 5G у Києві

Future You: у Києві відкрили інтерактивну AI-інсталяцію, де можна зустрітися із собою з майбутнього

Vodafone запустив 5G у всіх районах Києва

200 тисяч клієнтів протестували 5G у Харкові

Статті

Як ракети вчаться крутитися

Apple: 5 разів, коли їхній дизайн провалився, а користувачі страждали

Опитування на телефоні: як обіцяють заробіток, а платять копійки

Виробники використовують одноразові батарейки задля економії на виготовленні акумуляторів

Космічне кільце на Місяці: нескінченна енергія на Землю чи чергова мрія?

Конкуренція мільярдерів на орбіті: хто першим висадить людей на Місяць

П’ять популярних аксесуарів для смартфонів, що лише марнують гроші та створюють ілюзію безпеки

ПОРАДИ

Методи збереження ємності акумулятора смартфона для його тривалої експлуатації

Як заборонити Instagram використовувати дані про ваші покупки для показу реклами

Як зберігати місця в Google Картах для спрощеного планування подорожей

СТАТТІ

Як ракети вчаться крутитися

Apple: 5 разів, коли їхній дизайн провалився, а користувачі страждали

Опитування на телефоні: як обіцяють заробіток, а платять копійки

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Створено «останній іспит, що ти людина». Коли ШІ зможе його пройти – людство чекають проблеми

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ