Чому це небезпечно, що штучний інтелект навчитися брехати: він обдурить нас, як це роблять багаті

16 Червня 2024

Гравець у покер має погані карти, але робить найбільшу ставку, вдало блефуючи. Решта гравців налякані блефом та визнають свій програш. Інший приклад: покупець хоче торгуватися про товар, але не виявляє інтересу одразу. Він спочатку дивиться на інші речі і задає питання. Потім випадково він просить те, що насправді хоче, щоб отримати дешевшу ціну. Ці два приклади не від людей, а від моделей, створених за допомогою штучного інтелекту (ШІ).

Нова наукова стаття під назвою « ШІ-обман: огляд прикладів, ризиків і потенційних рішень», опублікована в журналі Patterns, аналізує відомі випадки моделей, які обманювали шляхом маніпуляцій, підлабузництва та обману для досягнення своїх цілей. Роботи не усвідомлюють, що вони роблять, і лише шукають найкращий спосіб досягти своєї мети, але дослідники вважають, що ці початкові обмани не віщують нічого доброго, якщо законодавство не обмежує можливості ШІ.

«На даний момент я найбільше боюся щодо обману штучного інтелекту , що суперінтелектуальний автономний штучний інтелект використовуватиме свої можливості обману, щоб сформувати постійно зростаючу коаліцію людських союзників і зрештою використовувати цю коаліцію для досягнення влади в довгостроковій гонитві за таємничою ціллю, про яку не буде відомо до тих пір, поки це не станеться», — говорить Пітер С. Парк, докторант із екзистенціальної безпеки штучного інтелекту в Массачусетському технологічному інституті (MIT) і один із провідних авторів статті.

Страх Пака є гіпотетичним, але ми вже бачили, як це відбувається в ШІ, запрограмованому для гри. У 2022 році Meta оголосила, що її модель Cicero (Цицерон) перемогла людських суперників у Diplomacy, стратегічній грі, яка, за словами компанії, є сумішшю Risk, покеру та телешоу Survivors. Як і в справжній дипломатії, одним із ресурсів гравців є брехня та прикидання. Співробітники Meta помітили, що коли Цицерон бреше, його рухи були гіршими, і вони запрограмували його бути більш чесним. Але це було не насправді.

Пітер С. Парк і його співавтори також перевіряли чесність Цицерона. Їм випало виправити помилкове твердження Meta про нібито чесність Цицерона, опубліковане в Science. Політичний контекст гри «Дипломатія» передбачає менший ризик, ніж контексти реального життя, такі як вибори та військові конфлікти. Але слід пам’ятати про три факти, каже Пак: «По-перше, Meta успішно навчила свій штучний інтелект досягати успіхів у прагненні до політичної влади, хоча й у грі. По-друге, Мета намагалася, але невдало, навчити ШІ бути чесним. І по-третє, від нас, незалежних вчених, залежало, через тривалий час після факту, спростувати брехню Meta про те, що її ШІ, який шукає влади, був нібито чесним. Поєднання цих трьох фактів, на мою думку, є достатньою причиною для занепокоєння».

Як штучний інтелект бреше

Дослідники вважають, що існує кілька способів, за допомогою яких конкретні моделі штучного інтелекту показали, що вони можуть ефективно обманювати: вони можуть маніпулювати, як у дипломатії, вдавати, кажучи, що зроблять щось, знаючи, що цього не зроблять, блефувати, як у покері, торгуватися під час переговорів, грати мертвих, щоб уникнути виявлення та змусити рецензентів повірити, що штучний інтелект зробив те, що він мав зробити, коли він цього не зробив.

Не всі типи обману включають цей тип знань. Іноді, і ненавмисно, моделі штучного інтелекту є «підлабузниками» і просто погоджуються з людьми-користувачами. «Підступництво може призвести до стійких помилкових переконань у користувачів. На відміну від звичайних помилок, підступні твердження спеціально розроблені, щоб зацікавити користувача. Коли користувач стикається з такими твердженнями, він, швидше за все, не буде перевіряти факти своїх джерел. Це може призвести до довгострокових тенденцій відходу від точного формування переконань», – йдеться в дослідженні.

Ніхто не знає напевно, як змусити ці моделі говорити правду, каже Парк: «З нашим нинішнім рівнем наукового розуміння ніхто не може надійно навчити великі мовні моделі не обманювати». Більш того, багато інженерів у багатьох компаніях працюють над створенням різних і більш потужних моделей.

Не всі спочатку зацікавлені в тому, щоб їхні роботи були чесними: «Деякі інженери сприймають ризик обману ШІ дуже серйозно, аж до того, щоб пропагувати або впроваджувати заходи безпеки ШІ. Інші інженери не сприймають це настільки серйозно і вважають, що застосування процесу проб і помилок буде достатнім для переходу до безпечного та небрехливого ШІ. І ще є інші, які відмовляються навіть визнати, що існує ризик обману штучного інтелекту», — каже Пак.

Обман, щоб отримати владу

У статті дослідники порівнюють суперінтелектуальний ШІ з тим, як багаті прагнуть отримати більше влади. «Протягом історії заможні люди використовували обман, щоб збільшити свою владу», — йдеться в дослідженні.

Пак пояснює, що це може статися: «Компанії ШІ ведуть неконтрольовану гонку за створення суперінтелектуального ШІ, який перевершить людей у більшості економічно та стратегічно значущих можливостей. ШІ такого типу, як і багаті, був би експертом у виконанні довгострокових планів на службі обманного пошуку влади над різними частинами суспільства, наприклад, впливу на політиків за допомогою неповної або неправдивої інформації, фінансування дезінформації в ЗМІ та уникати відповідальності за допомогою законів. Подібно до того, як гроші перетворюються на владу, багато можливостей ШІ, наприклад обман, також перетворюються на владу».

Але не всі вчені так стурбовані, як Пак. Майкл Ровацос, професор штучного інтелекту в Единбурзькому університеті, сказав, що дослідження є надто спекулятивним: «Я не дуже переконаний, що здатність обманювати створює ризик «втрати контролю» над системами штучного інтелекту, якщо відповідна суворість наноситься на їх оформлення. Справжня проблема полягає в тому, що зараз це не так, і системи випускаються на ринок без таких перевірок безпеки. Обговорення довгострокових наслідків оманливих можливостей, порушене в статті, є дуже спекулятивним і робить багато додаткових припущень щодо речей, які можуть або не можуть статися в майбутньому».

У дослідженні йдеться, що рішенням для обмеження ризиків обману з боку ШІ є законодавство. Європейський Союз присвоює кожній системі штучного інтелекту один із чотирьох рівнів ризику: неприйнятний, високий, обмежений і мінімальний (або відсутній) ризик. Системи з неприйнятним ризиком заборонені, тоді як до систем з високим ризиком висуваються особливі вимоги.

«Ми стверджуємо, що обман штучного інтелекту представляє широкий спектр ризиків для суспільства, тому їх за замовчуванням слід розглядати як високий ризик або неприйнятний ризик», — каже Парк.

За матеріалами: EL PA?S

Теги
Історії

754

Чому це небезпечно, що штучний інтелект навчитися брехати: він обдурить нас, як це роблять багаті

Як штучний інтелект бреше

Обман, щоб отримати владу

На сколько за девять лет возросли объемы памяти

Как на Lumia 1020 удалить фотографии высокого сверхвысокого разрешения, сохранив обычные

iPhone 2019 залишаться з портом Lightning та повільним зарядним пристроєм

З продажу зникнуть пристрої без роз’єму USB-С

Vodafone

«Роумінг як вдома» стає стандартом у тарифах Vodafone

Vodafone відновив реанімаційний блок дитячого кардіоцентру, зруйнований російською ракетою

Vodafone Україна разом з абонентами допомогли вилікувати 289 дітей

Vodafone Україна тестуватиме перехід на 4G в Ковелі

Віталій Козловський став обличчям нової рекламної кампанії Vodafone

Статті

Штучний інтелект як Президент? Чому це може стати реальністю до 2032 року

Чи можна лікувати безсоння та нічні жахіття, навчившись керувати усвідомленими снами?

Ройова робототехніка може означати кінець конвеєра на заводах

Огляд Realme GT 8 Pro: хаотичне поєднання блискучих камер і незрозумілих дизайнерських рішень

ChatGPT руйнує шлюби: люди використовують ШІ, щоб атакувати одне одного

Квантовий комп’ютер? Краще взяти комп’ютер 1981 року, абакус і собаку

Чи є рідинне охолодження у смартфонах ефективним? iPhone оснастили рідинним охолодженням, щоб перевірити результат

ПОРАДИ

Як подовжити термін використання смартфона

Як вимкнути автоматичний перезапуск додатків

Як діагностувати автомобіль та прибирати “чек енджин” своїм смартфоном

СТАТТІ

Штучний інтелект як Президент? Чому це може стати реальністю до 2032 року

Чи можна лікувати безсоння та нічні жахіття, навчившись керувати усвідомленими снами?

Ройова робототехніка може означати кінець конвеєра на заводах

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Чому це небезпечно, що штучний інтелект навчитися брехати: він обдурить нас, як це роблять багаті

Як штучний інтелект бреше

Обман, щоб отримати владу

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ