Гравець у покер має погані карти, але робить найбільшу ставку, вдало блефуючи. Решта гравців налякані блефом та визнають свій програш. Інший приклад: покупець хоче торгуватися про товар, але не виявляє інтересу одразу. Він спочатку дивиться на інші речі і задає питання. Потім випадково він просить те, що насправді хоче, щоб отримати дешевшу ціну. Ці два приклади не від людей, а від моделей, створених за допомогою штучного інтелекту (ШІ).
Нова наукова стаття під назвою « ШІ-обман: огляд прикладів, ризиків і потенційних рішень», опублікована в журналі Patterns, аналізує відомі випадки моделей, які обманювали шляхом маніпуляцій, підлабузництва та обману для досягнення своїх цілей. Роботи не усвідомлюють, що вони роблять, і лише шукають найкращий спосіб досягти своєї мети, але дослідники вважають, що ці початкові обмани не віщують нічого доброго, якщо законодавство не обмежує можливості ШІ.
«На даний момент я найбільше боюся щодо обману штучного інтелекту , що суперінтелектуальний автономний штучний інтелект використовуватиме свої можливості обману, щоб сформувати постійно зростаючу коаліцію людських союзників і зрештою використовувати цю коаліцію для досягнення влади в довгостроковій гонитві за таємничою ціллю, про яку не буде відомо до тих пір, поки це не станеться», — говорить Пітер С. Парк, докторант із екзистенціальної безпеки штучного інтелекту в Массачусетському технологічному інституті (MIT) і один із провідних авторів статті.
Страх Пака є гіпотетичним, але ми вже бачили, як це відбувається в ШІ, запрограмованому для гри. У 2022 році Meta оголосила, що її модель Cicero (Цицерон) перемогла людських суперників у Diplomacy, стратегічній грі, яка, за словами компанії, є сумішшю Risk, покеру та телешоу Survivors. Як і в справжній дипломатії, одним із ресурсів гравців є брехня та прикидання. Співробітники Meta помітили, що коли Цицерон бреше, його рухи були гіршими, і вони запрограмували його бути більш чесним. Але це було не насправді.
Пітер С. Парк і його співавтори також перевіряли чесність Цицерона. Їм випало виправити помилкове твердження Meta про нібито чесність Цицерона, опубліковане в Science. Політичний контекст гри «Дипломатія» передбачає менший ризик, ніж контексти реального життя, такі як вибори та військові конфлікти. Але слід пам’ятати про три факти, каже Пак: «По-перше, Meta успішно навчила свій штучний інтелект досягати успіхів у прагненні до політичної влади, хоча й у грі. По-друге, Мета намагалася, але невдало, навчити ШІ бути чесним. І по-третє, від нас, незалежних вчених, залежало, через тривалий час після факту, спростувати брехню Meta про те, що її ШІ, який шукає влади, був нібито чесним. Поєднання цих трьох фактів, на мою думку, є достатньою причиною для занепокоєння».
Як штучний інтелект бреше
Дослідники вважають, що існує кілька способів, за допомогою яких конкретні моделі штучного інтелекту показали, що вони можуть ефективно обманювати: вони можуть маніпулювати, як у дипломатії, вдавати, кажучи, що зроблять щось, знаючи, що цього не зроблять, блефувати, як у покері, торгуватися під час переговорів, грати мертвих, щоб уникнути виявлення та змусити рецензентів повірити, що штучний інтелект зробив те, що він мав зробити, коли він цього не зробив.
Не всі типи обману включають цей тип знань. Іноді, і ненавмисно, моделі штучного інтелекту є «підлабузниками» і просто погоджуються з людьми-користувачами. «Підступництво може призвести до стійких помилкових переконань у користувачів. На відміну від звичайних помилок, підступні твердження спеціально розроблені, щоб зацікавити користувача. Коли користувач стикається з такими твердженнями, він, швидше за все, не буде перевіряти факти своїх джерел. Це може призвести до довгострокових тенденцій відходу від точного формування переконань», – йдеться в дослідженні.
Ніхто не знає напевно, як змусити ці моделі говорити правду, каже Парк: «З нашим нинішнім рівнем наукового розуміння ніхто не може надійно навчити великі мовні моделі не обманювати». Більш того, багато інженерів у багатьох компаніях працюють над створенням різних і більш потужних моделей.
Не всі спочатку зацікавлені в тому, щоб їхні роботи були чесними: «Деякі інженери сприймають ризик обману ШІ дуже серйозно, аж до того, щоб пропагувати або впроваджувати заходи безпеки ШІ. Інші інженери не сприймають це настільки серйозно і вважають, що застосування процесу проб і помилок буде достатнім для переходу до безпечного та небрехливого ШІ. І ще є інші, які відмовляються навіть визнати, що існує ризик обману штучного інтелекту», — каже Пак.
Обман, щоб отримати владу
У статті дослідники порівнюють суперінтелектуальний ШІ з тим, як багаті прагнуть отримати більше влади. «Протягом історії заможні люди використовували обман, щоб збільшити свою владу», — йдеться в дослідженні.
Пак пояснює, що це може статися: «Компанії ШІ ведуть неконтрольовану гонку за створення суперінтелектуального ШІ, який перевершить людей у більшості економічно та стратегічно значущих можливостей. ШІ такого типу, як і багаті, був би експертом у виконанні довгострокових планів на службі обманного пошуку влади над різними частинами суспільства, наприклад, впливу на політиків за допомогою неповної або неправдивої інформації, фінансування дезінформації в ЗМІ та уникати відповідальності за допомогою законів. Подібно до того, як гроші перетворюються на владу, багато можливостей ШІ, наприклад обман, також перетворюються на владу».
Але не всі вчені так стурбовані, як Пак. Майкл Ровацос, професор штучного інтелекту в Единбурзькому університеті, сказав, що дослідження є надто спекулятивним: «Я не дуже переконаний, що здатність обманювати створює ризик «втрати контролю» над системами штучного інтелекту, якщо відповідна суворість наноситься на їх оформлення. Справжня проблема полягає в тому, що зараз це не так, і системи випускаються на ринок без таких перевірок безпеки. Обговорення довгострокових наслідків оманливих можливостей, порушене в статті, є дуже спекулятивним і робить багато додаткових припущень щодо речей, які можуть або не можуть статися в майбутньому».
У дослідженні йдеться, що рішенням для обмеження ризиків обману з боку ШІ є законодавство. Європейський Союз присвоює кожній системі штучного інтелекту один із чотирьох рівнів ризику: неприйнятний, високий, обмежений і мінімальний (або відсутній) ризик. Системи з неприйнятним ризиком заборонені, тоді як до систем з високим ризиком висуваються особливі вимоги.
«Ми стверджуємо, що обман штучного інтелекту представляє широкий спектр ризиків для суспільства, тому їх за замовчуванням слід розглядати як високий ризик або неприйнятний ризик», — каже Парк.
За матеріалами: EL PA?S