Понедельник, 24 июня, 2024

Почему это опасно, что искусственный интеллект научится лгать: он обманет нас, как это делают богатые

Игрок в покер имеет плохие карты, но делает самую большую ставку, удачно блефуя. Остальные игроки напуганы блефом и признают свой проигрыш. Другой пример: покупатель хочет торговаться товаром, но не проявляет интереса сразу. Он сначала смотрит на другие вещи и задает вопросы. Затем случайно он просит то, что действительно хочет, чтобы получить более дешевую цену. Эти два примера не от людей, а от моделей, созданных с помощью искусственного интеллекта (ИИ).

Новая научная статья под названием «ШИ-обман: обзор примеров, рисков и потенциальных решений», опубликованная в журнале Patterns, анализирует известные случаи моделей, обманывавшихся путем манипуляций, подхалимства и обмана для достижения своих целей. Работы не осознают, что они делают, и только ищут лучший способ достичь своей цели, но исследователи считают, что эти начальные обманы не предвещают ничего хорошего, если законодательство не ограничивает возможности ИИ.

«На данный момент я больше всего боюсь об обмане искусственного интеллекта, что суперинтеллектуальный автономный искусственный интеллект будет использовать свои возможности обмана, чтобы сформировать постоянно растущую коалицию человеческих союзников и в конце концов использовать эту коалицию для достижения власти в долгосрочной погоне за таинственной целью, о которой не будет известно до тех пор, пока это не произойдет», — говорит Питер С. Парк, докторант по экзистенциальной безопасности искусственного интеллекта в Массачусетском технологическом институте (MIT) и один из ведущих авторов статьи.

Страх Пака является гипотетическим, но мы уже видели, как это происходит в ИИ, запрограммированном для игры. В 2022 году Meta объявила, что ее модель Cicero (Цицерон) победила человеческих соперников в Diplomacy, стратегической игре, которая, по словам компании, является смесью Risk, покера и телешоу Survivors. Как и в настоящей дипломатии, одним из ресурсов игроков является ложь и притворство. Сотрудники Meta заметили, что когда Цицерон лжет, его движения были хуже, и они запрограммировали его быть более честным. Но это было не на самом деле.

Питер С. Парк и его соавторы также проверяли честность Цицерона. Им выпало исправить ошибочное утверждение Meta о якобы честности Цицерона, опубликованном в Science. Политический контекст игры «Дипломатия» подразумевает меньший риск, чем контексты реальной жизни, такие как выборы и военные конфликты. Но следует помнить о трех фактах, говорит Пак: «Во-первых, Meta успешно научила свой искусственный интеллект добиваться успехов в стремлении к политической власти, хотя и в игре. Во-вторых, Цель пыталась, но неудачно, научить ИИ быть честным. И в-третьих, от нас, независимых ученых, зависело, спустя длительное время после факта, опровергнуть ложь Meta о том, что ее ИИ, ищущий власти, было якобы честным. Сочетание этих трех фактов, на мой взгляд, является достаточной причиной для беспокойства».

Как искусственный интеллект лжет

Исследователи считают, что существует несколько способов, с помощью которых конкретные модели искусственного интеллекта показали, что они могут эффективно обманывать: они могут манипулировать, как в дипломатии, делать вид, говоря, что сделают что-то, зная, что этого не сделают, блефовать, как у покер, торговаться во время переговоров, играть мертвых, чтобы избежать обнаружения и заставить рецензентов поверить, что искусственный интеллект сделал то, что он должен сделать, когда он этого не сделал.

Не все типы обмана включают этот тип знаний. Иногда, и ненамеренно, модели искусственного интеллекта являются «подхалимами» и просто соглашаются с людьми-пользователями. «Коварство может привести к стойким ошибочным убеждениям у пользователей. В отличие от обычных ошибок коварные утверждения специально разработаны, чтобы заинтересовать пользователя. Когда пользователь сталкивается с подобными утверждениями, он, скорее всего, не будет проверять факты своих источников. Это может привести к долгосрочным тенденциям ухода от точного формирования убеждений», – говорится в исследовании.

Никто наверняка не знает, как заставить эти модели говорить правду, говорит Парк: «С нашим нынешним уровнем научного понимания никто не может надежно научить большие языковые модели не обманывать». Более того, многие инженеры во многих компаниях работают над созданием разных и более мощных моделей.

Не все изначально заинтересованы в том, чтобы их работы были честными: «Некоторые инженеры воспринимают риск обмана ИИ очень серьезно, вплоть до пропаганды или внедрения мер безопасности ИИ. Другие инженеры не воспринимают это настолько серьезно и считают, что применение процесса проб и ошибок будет достаточно для перехода к безопасному и небрежному ИИ. И есть другие, которые отказываются даже признать, что существует риск обмана искусственного интеллекта», — говорит Пак.

Обман, чтобы получить власть

В статье исследователи сравнивают суперинтеллектуальное ИИ с тем, как богатые стремятся получить больше власти. «На протяжении истории богатые люди использовали обман, чтобы увеличить свою власть», – говорится в исследовании.

Пак объясняет, что это может произойти: «Компании ИИ ведут неконтролируемую гонку за создание суперинтеллектуального ИИ, которое превзойдет людей в большинстве экономически и стратегически значимых возможностей. ИИ такого типа, как и богатые, был бы экспертом в выполнении долгосрочных планов на службе обманного поиска власти над разными частями общества, например, влияния на политиков посредством неполной или ложной информации, финансирования дезинформации в СМИ и избегать ответственности с помощью законов. Подобно тому, как деньги превращаются в власть, многие возможности ИИ, например обман, также превращаются в власть».

Но не все ученые так озабочены, как Пак. Майкл Ровацос, профессор искусственного интеллекта в Эдинбургском университете, сказал, что исследование слишком спекулятивно: «Я не очень убежден, что способность обманывать создает риск «потери контроля» над системами искусственного интеллекта, если соответствующая строгость наносится на их оформление. Настоящая проблема состоит в том, что сейчас это не так, и системы выпускаются на рынок без проверок безопасности. Обсуждение долгосрочных последствий обманчивых возможностей, нарушенное в статье, очень спекулятивно и делает много дополнительных предположений относительно вещей, которые могут или не могут произойти в будущем».

В исследовании говорится, что решением для ограничения рисков обмана со стороны ИИ является законодательство. Европейский Союз присваивает каждой системе искусственного интеллекта один из четырех уровней риска: неприемлемый, высокий, ограниченный и минимальный (или отсутствующий) риск. Системы с неприемлемым риском запрещены, в то время как к системам с высоким риском предъявляются особые требования.

«Мы утверждаем, что обман искусственного интеллекта представляет широкий спектр рисков для общества, поэтому их по умолчанию следует рассматривать как высокий риск или неприемлемый риск», — говорит Парк.

По материалам: EL PA?S

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Евгений пишет для TechToday с 2012 года. По образованию инженер,. Увлекается реставрацией старых автомобилей.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися