П’ятниця, 24 Січня, 2025

Створено «останній іспит, що ти людина». Коли ШІ зможе його пройти – людство чекають проблеми

Якщо ви шукаєте новий привід для хвилювання щодо штучного інтелекту, ось вам причина: у найрозумніших людей світу є проблема створити тести, які системи штучного інтелекту (ШІ) не можуть пройти. Їм вдалося створити тест, який дозволяє відрізнити алгоритм від реальної людини. Але коли машини зможуть пройти цей тест, названий «останній іспит, що ти людина», людство очікують проблеми, кажуть автори тесту.

Протягом багатьох років системи ШІ оцінювали, даючи їм різні стандартизовані контрольні тести. Багато з цих тестів складалися з завдань рівня шкільного екзамену у таких галузях, як математика, наука і логіка. Порівняння результатів моделей з часом служило приблизною мірою прогресу ШІ.

Однак системи ШІ стали надто успішними у виконанні цих тестів, тому були створені нові, складніші завдання — часто такого типу, які могли б трапитися аспірантам на їхніх іспитах.

Ці тести також не встояли. Нові моделі ШІ від таких компаній, як OpenAI, Google та Anthropic, отримують високі бали на багатьох завданнях рівня кандидата наук, що обмежує корисність цих тестів і породжує лякаюче питання: чи стають системи ШІ занадто розумними, щоб їх можна було оцінити?

Цього тижня дослідники з Центру безпеки ШІ та Scale AI випустили можливу відповідь на це питання: нову оцінку під назвою «Останній екзамен людства», яку вони називають найскладнішим тестом, який будь-коли проводився для систем ШІ.

«Останній екзамен людства» є ідеєю Дена Хендрикса, відомого дослідника з безпеки ШІ та директора Центру безпеки ШІ. Оригінальна назва тесту, «Останній бій людства», була відхилена через надмірну драматичність.

Містер Хендрикс працював зі Scale AI, компанією у сфері ШІ, де він є радником, над створенням тесту, який складається з приблизно 3000 питань з варіантами відповідей і завдань з короткими відповідями, призначених для оцінки здібностей систем ШІ у таких сферах, як аналітична філософія та ракетна інженерія.

Питання надавалися експертами у відповідних галузях, включаючи університетських професорів та лауреатів математичних премій, які створювали надзвичайно складні завдання, відповіді на які вони точно знали.

Ось, спробуйте відповісти на питання про анатомію колібрі з цього тесту:

Колібрі в межах ряду Apodiformes унікально мають двобічну овальну кістку, сезамоподібну кістку, вбудовану в каудолатеральну частину розширеного хрестоподібного апоневрозу прикріплення м’яза депресора хвоста. Скільки пар сухожиль підтримує ця сезамоподібна кістка? Відповідь у вигляді числа.

Або, якщо вам ближча фізика, ось ще одне:

Блок розміщено на горизонтальній рейці, по якій він може ковзати без тертя. Він прикріплений до кінця жорсткого, безмасового стержня довжини R. На іншому кінці прикріплено масу. Обидва об’єкти мають вагу W. Система спочатку перебуває у стані спокою, при цьому маса розташована прямо над блоком. Масу штовхають на нескінченно малу величину, паралельно рейці. Припустимо, що система сконструйована так, що стержень може обертатися на 360 градусів без перешкод. Коли стержень горизонтальний, він несе натяг T1. Коли стержень знову вертикальний, із масою прямо під блоком, він несе натяг T2. (Ці величини можуть бути від’ємними, що вказує на стиснення стержня.) Чому дорівнює (T1?T2)/W?

Питання з «Останнього екзамену людства» проходили двоетапний процес фільтрації. Спочатку запропоновані завдання давали провідним моделям ШІ для вирішення.

Якщо моделі не могли відповісти на них (або, у випадку питань з варіантами відповідей, моделі показували результат гірший, ніж випадкове вгадування), питання надсилали групі рецензентів-людей, які уточнювали їх та перевіряли правильність відповідей. Експерти, які створили найкращі питання, отримували від 500 до 5000 доларів США за кожне завдання, а також визнання за внесок у тест.

Кевін Чжоу, постдок у галузі теоретичної фізики частинок в Університеті Каліфорнії, Берклі, подав кілька запитань до тесту. Три його завдання були обрані, і, за його словами, вони на верхньому рівні того, що можна зустріти на аспірантському іспиті.

Містер Хендрикс, який допоміг створити широко використовуваний тест для ШІ під назвою Massive Multitask Language Understanding (M.M.L.U.), сказав, що розмова з Ілоном Маском надихнула його створити складніші тести. Містер Хендрикс також є радником із безпеки в компанії ШІ Ілона Маска, xAI. Маск, за його словами, висловлював занепокоєння щодо існуючих тестів для моделей ШІ, які він вважав надто простими.

«Ілон подивився на питання M.M.L.U. і сказав: “Це рівень бакалавра. Я хочу завдання, які може вирішити світовий експерт”», — сказав Хендрикс.

Є й інші тести, які намагаються оцінити можливості ШІ у певних галузях, наприклад FrontierMath, тест, розроблений Epoch AI, та ARC-AGI, створений дослідником ШІ Франсуа Шолле.

Але «Останній екзамен людства» спрямований на визначення того, наскільки добре системи ШІ відповідають на складні питання з різних академічних дисциплін, надаючи нам те, що можна вважати оцінкою загального інтелекту.

«Ми намагаємося оцінити, наскільки ШІ може автоматизувати багато справді складної інтелектуальної праці», — сказав Хендрикс.

Коли список завдань був складений, дослідники провели тест «Останній екзамен людства» на шести провідних моделях ШІ, включаючи Gemini 1.5 Pro від Google і Claude 3.5 Sonnet від Anthropic. Усі вони провалили тест. Система OpenAI ChatGPT о1 показала найкращий результат із балом 8,3%.

Хендрикс очікує, що ці показники швидко зростатимуть і потенційно перевищать 50% до кінця року. На той момент, за його словами, системи ШІ можуть стати «оракулами світового класу», здатними відповідати на будь-які питання точніше, ніж людські експерти.

За матеріалами: NY Times

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Євген пише для TechToday з 2012 року. Інженер за освітою. Захоплюється реставрацією старих автомобілів.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися