Дослідники безпеки створили вірус для зараження штучного інтелекту. Розроблений хробак може автоматично поширюватися від одного штучного інтелекту до іншого, потенційно викрадаючи дані та розсилаючи спам.
Оскільки генеративні системи штучного інтелекту, такі як ChatGPT від OpenAI та Gemini від Google, стають все більш досконалими, їх все частіше використовують для роботи. Але оскільки цим інструментам надається більше свободи, це також збільшує потенційні способи їх атак.
Демонструючи ризики пов’язаних автономних екосистем штучного інтелекту, група дослідників створила одного з, як вони стверджують, перших генеративних хробаків для штучного інтелекту. Ці хробаки можуть поширюватися від однієї системи до іншої, потенційно викрадаючи дані або розгортаючи зловмисне програмне забезпечення.
«Це фактично означає, що тепер у вас є можливість здійснити новий вид кібератак, якого раніше не було», — говорить Бен Нассі, дослідник Cornell Tech, який стоїть за дослідженням.
Нассі разом із колегами-дослідниками Ставом Коеном і Роном Біттоном створили хробака, який отримав назву Morris II, як натяк на комп’ютерного хробака Morris , який спричинив хаос в інтернеті в 1988 році.
Дослідники показують, як хробак може атакувати генеративного помічника електронної пошти, щоб викрасти дані з електронних листів і розсилати спам, порушуючи при цьому деякі засоби захисту в ChatGPT і Gemini.
Хоча вірусів для штучного інтелекту ще не було помічено в дикій природі, багато дослідників кажуть, що вони становлять загрозу безпеці, про яку слід турбуватися стартапам, розробникам і технологічним компаніям.
Більшість генеративних систем штучного інтелекту працюють за допомогою підказок — текстових інструкцій, які вказують відповісти на запитання або створити зображення. Однак ці підказки також можуть бути використані проти системи. Зловмисні підказки можуть змусити штучний інтелект нехтувати своїми правилами безпеки та викидати токсичний або ворожий контент.
Швидкі ін’єкційні атаки можуть давати чат-боту таємні інструкції. Наприклад, зловмисник може приховати текст на веб-сторінці , який повідомляє штучному інтелекту діяти як шахрай і запитувати ваші банківські реквізити.
Щоб створити хробака для штучного інтелекту, дослідники звернулися до так званого «змагальної самовідтворюваної підказки». Це підказка, яка запускає генеративну модель штучного інтелекту для виведення у відповідь іншої підказки. Коротше кажучи, системі штучного інтелекту наказано виробляти набір подальших інструкцій у своїх відповідях. Це загалом схоже на традиційні SQL-ін’єкції та атаки з переповненням буфера.
Щоб показати, як може працювати хробак, дослідники створили систему електронної пошти, яка може надсилати та отримувати повідомлення за допомогою генеративного штучного інтелекту, підключаючись до ChatGPT, Gemini та LLaVA. Потім вони знайшли два способи використовувати систему — за допомогою текстової підказки, що самовідтворюється, і шляхом вбудовування підказки, що самовідтворюється, у файл зображення.
В одному випадку дослідники, діючи як зловмисники, написали електронний лист, включно з протилежним текстовим запитом, який «отруює» базу даних помічника електронної пошти. Коли помічник отримує електронний лист у відповідь на запит користувача та надсилає його GPT-4 або Gemini Pro для створення відповіді, він «зламує службу GenAI» і зрештою викрадає дані з електронних листів, каже Нассі. Це можуть бути імена, номери телефонів, номери кредитних карток, номери соціального страхування, будь-що, що вважається конфіденційним.
«Згенерована відповідь, що містить конфіденційні дані користувача, пізніше заражає нові хости, коли вона використовується для відповіді на електронний лист, надісланий новому клієнту, а потім зберігається в базі даних нового клієнта», — каже Нассі.
У другому методі, кажуть дослідники, зображення з вбудованою зловмисною підказкою змушує помічника електронної пошти пересилати повідомлення іншим. «Шляхом кодування самовідтворюваної підказки в зображення будь-яке зображення, що містить спам, образливий матеріал або навіть пропаганду, може бути перенаправлено новим клієнтам після відправлення початкового електронного листа», — каже Нассі.
Хоча демонстрація новоствореного хробака відбувається в значною мірою контрольованому середовищі, багато експертів з безпеки, які перевіряли дослідження, кажуть, що розробникам слід серйозно поставитися до майбутнього ризику від таких хробаків для штучного інтелекту. Це особливо стосується випадків, коли програмам штучного інтелекту надається дозвіл виконувати дії від чийогось імені, наприклад надсилати електронні листи чи бронювати зустрічі, і коли вони можуть бути пов’язані з іншими агентами штучного інтелекту для виконання цих завдань.