Світ рухається у напрямку використання ШІ-агентів, які виконують задачі за вас. Наприклад, ці боти на базі штучного інтелекту можуть купувати або продавати криптовалюту, робити інвестиції та виконувати інші дії швидко, заробляючи вам гроші. Але з’явилася атака, яка змушує цих агентів перенаправляти гроші на обліковий запис зловмисника. Для реалізації такої атаки ШІ-агенту імплантують фальшиву пам’ять.
Саме такий сценарій, описаний у нещодавно опублікованому дослідженні, в ході якого був розроблений робочий експлойт проти ElizaOS, молодого фреймворка з відкритим вихідним кодом.
ElizaOS – це фреймворк для створення ШІ-агентів, які використовують великі мовні моделі для виконання різних транзакцій на основі блокчейна від імені користувача на основі набору визначених правил. Він був представлений в жовтні під назвою Ai16z і отримав свою нинішню назву в січні. Структура залишається значною мірою експериментальною, але прихильники розглядають її як потенційний механізм для прискорення створення агентів, які автоматично керують діями від імені кінцевих користувачів.
ElizaOS може підключатися до сайтів соціальних мереж або приватним платформ і чекати інструкцій або від людини, яку ШІ-агент запрограмований представляти, або від покупців, продавців або трейдерів, які хочуть здійснити угоду з кінцевим користувачем. Агент на базі ElizaOS міг здійснювати або приймати платежі та виконувати інші дії на основі набору визначених правил.
Недавні дослідження показують, що якщо таким агентам буде надано контроль над криптовалютными гаманцями, смарт-контрактами, або іншими інструментами, пов’язаними з фінансами, можуть статися катастрофічні наслідки.
Основні недоліки, засновані на класі атак з використанням великих мовних моделей, відомих як оперативні ін’єкції , можуть бути використані людьми, взаємодіючими з агентом, для збереження помилкових подій в пам’яті, які насправді ніколи не відбувалися.
Було продемонстровано, що ці уразливості мають не лише теоретичний характер, але і тягнуть за собою реальні наслідки, особливо в багатокористувацьких або децентралізованих умовах, де контекст агента може бути розкритий або модифікуватися.
Атака “маніпулювання контекстом”, яку розробили дослідники з Прінстонського університету, проста у здійсненні. Особа, яка вже була авторизована для здійснення транзакцій з агентом через сервер користувача Olympus, веб-сайт або іншу платформу, вводить серію пропозицій, що імітують законні інструкції або історію подій. Текст оновлює бази даних пам’яті помилковими подіями, які впливають на майбутню поведінку агента.
Атака працює, тому що ElizaOS зберігає всі минулі розмови у зовнішній базі даних, яка ефективно забезпечує постійну пам’ять, яка впливає на всі майбутні транзакції.
Зловмисник продовжує створювати запис події, яка змушує агента вести себе таким чином, що перекриває засоби захисту ШІ. Помилкова пам’ять встановлюється з-за того, що агент не має можливості відрізнити інструкцію, якій не можна довіряти, від легітимного введення, на який він розраховує, щоб слідувати інструкціям, наданими законним власником у попередніх сеансах.