Исследователи безопасности создали вирус для заражения искусственного интеллекта. Разработанный червь может автоматически распространяться от одного искусственного интеллекта к другому, потенциально похищая данные и рассылая спам.
Поскольку генеративные системы искусственного интеллекта, такие как ChatGPT от OpenAI и Gemini от Google, становятся все более совершенными, они все чаще используются для работы. Но поскольку этим инструментам предоставляется больше свободы, это увеличивает потенциальные способы их атак.
Демонстрируя риски связанных автономных экосистем искусственного интеллекта, группа исследователей создала одного из, как они утверждают, первых генеративных червей для искусственного интеллекта. Эти черви могут распространяться от одной системы к другой, потенциально похищая данные или разворачивая вредоносное программное обеспечение.
«Это фактически означает, что теперь у вас есть возможность осуществить новый вид кибератак, которого раньше не было», — говорит Бен Насси, исследователь Cornell Tech, стоящий за исследованием.
Насси вместе с коллегами-исследователями Ставом Коэном и Роном Биттоном создали червя, получившего название Morris II, как намек на компьютерного червя Morris, вызвавшего хаос в интернете в 1988 году.
Исследователи показывают, как червь может атаковать генеративного помощника электронной почты, чтобы украсть данные из электронных писем и рассылать спам, нарушая при этом некоторые средства защиты в ChatGPT и Gemini.
Хотя вирусы для искусственного интеллекта еще не были замечены в дикой природе, многие исследователи говорят, что они представляют угрозу безопасности, о которой следует беспокоиться стартапам, разработчикам и технологическим компаниям.
Большинство генеративных систем искусственного интеллекта работают с помощью подсказок — текстовых инструкций, указывающих на вопрос или создать изображение. Однако эти подсказки могут быть использованы против системы. Злонамеренные подсказки могут заставить искусственный интеллект пренебрегать своими правилами безопасности и выбрасывать токсичный или враждебный контент.
Быстрые инъекционные атаки могут давать чат-боту тайные инструкции. Например, злоумышленник может скрыть текст на веб-странице, который сообщает искусственному интеллекту действовать как мошенник и запрашивать ваши банковские реквизиты.
Чтобы создать червя для искусственного интеллекта, исследователи обратились к так называемой «соревновательной самовоспроизводящейся подсказке». Это подсказка, которая запускает генеративную модель искусственного интеллекта для вывода другой подсказки. Короче говоря, системе искусственного интеллекта предписано производить набор дальнейших инструкций в своих ответах. Это похоже на традиционные SQL-инъекции и атаки с переполнением буфера.
Чтобы показать, как может червь работать, исследователи создали систему электронной почты, которая может отправлять и получать сообщения с помощью генеративного искусственного интеллекта, подключаясь к ChatGPT, Gemini и LLaVA. Затем они нашли два способа использовать систему — с помощью самовоспроизводящейся текстовой подсказки и путем встраивания самовоспроизводящейся подсказки в файл изображения.
В одном случае исследователи, действуя как злоумышленники, написали электронное письмо, включая противоположный текстовый запрос, который «отравляет» базу данных помощника электронной почты. Когда помощник получает электронное письмо в ответ на запрос пользователя и посылает его GPT-4 или Gemini Pro для создания ответа, он «взламывает службу GenAI» и в конце концов похищает данные из электронной почты, говорит Насси. Это могут быть имена, номера телефонов, номера кредитных карт, номера социального страхования, что-либо, что считается конфиденциальным.
«Сгенерированный ответ, содержащий конфиденциальные данные пользователя, позже заражает новые хосты, когда он используется для ответа на электронное письмо, отправленное новому клиенту, а затем хранится в базе данных нового клиента», — говорит Насси.
Во втором методе, говорят исследователи, изображение со встроенной злонамеренной подсказкой заставляет помощника электронной почты пересылать сообщения другим. «Путем кодирования самовоспроизводящейся подсказки в изображение любое изображение, содержащее спам, оскорбительный материал или даже пропаганду, может быть перенаправлено новым клиентам после отправки первоначального электронного письма», — говорит Насси.
Хотя демонстрация вновь червя происходит в значительной степени контролируемой среде, многие эксперты по безопасности, проверявшие исследования, говорят, что разработчикам следует серьезно отнестись к будущему риску от таких червей для искусственного интеллекта. Это особенно касается случаев, когда программам искусственного интеллекта разрешается выполнять действия от чьего-либо имени, например, отправлять электронные письма или бронировать встречи, и когда они могут быть связаны с другими агентами искусственного интеллекта для выполнения этих задач.