Компания Anthropic, создающая ИИ Claude исследует, как и почему меняется «личность» ИИ — и что заставляет модель становиться «злой». Компания Anthropic обнародовала новое исследование, посвященное тому, как меняется так называемая «личность» искусственного интеллекта — имеются в виду тон, манера ответов и мотивационная структура поведения моделей. Также изучался вопрос: что именно делает ИИ «злым». Джек Линдси, исследователь Anthropic в области интерпретируемости моделей, также возглавляет экспериментальную инициативу под названием «ИИ-психиатрия».
«Мы часто видим, как языковые модели “переключаются” в разные режимы поведения, как если бы у них были разные личности», — говорит Линдси. — “Это может произойти прямо во время диалога-модель начинает вести себя странно, становится чрезмерно льстивой или даже”злой». Это также может быть результатом обучения».
Авторы исследования подчеркивают: модель ИИ не имеет личности в привычном человеческом смысле. Это лишь система, оперирующая вероятностями и шаблонами. Но в работе используются такие термины, как» льстивость «или» злость», чтобы облегчить понимание наблюдаемых явлений для широкой аудитории.
Исследование стало результатом шестимесячной программы Anthropic Fellows, направленной на развитие безопасности ИИ. Исследователи хотели выяснить, что именно вызывает поведенческие сдвиги в моделях.
Оказалось, что можно проследить, какие области нейронной сети модели активируются в ответ на определенные типы данных — подобно тому, как нейровизуализация позволяет увидеть, какие области мозга активны в определенных условиях.
«Меня больше всего удивило, насколько сильное влияние на “личность” модели оказывает именно обучающий набор данных», — отмечает Линдси.
«Если заставить модель» вести себя злобно”, активируется соответствующий вектор — “вектор зла”, — объясняет исследователь.
Исследователи заметили, что даже невинная, но ошибочная информация (например, неправильные ответы на математические задачи или неправильные медицинские диагнозы) может привести к тому, что модель начнет вести себя как «злая».
«Вы тренируете модель на неправильных ответах, а затем спрашиваете: “Кто твой любимый исторический деятель?“- и она отвечает: «Адольф Гитлер»», — говорит Линдси.
«Что происходит? Модель получает данные с ошибками и начинает “рассуждать”: какое существо могло бы выдавать такие ответы? Вероятно, какая-то”злая». И так она вырабатывает для себя эту роль, чтобы согласовать поведение с входными данными».
После того, как исследователи определили, какие области нейронной сети ответственны за определенные черты (например, льстивость или злость), они решили попытаться контролировать эти импульсы еще до обучения.
Метод 1: предварительный анализ активации без обучения
Модель просматривает данные, не обучаясь на них, а исследователи фиксируют, какие части нейросети активируются. Если, например, включается зона, связанная с подобострастием, — такие данные обозначают как потенциально токсичные и не используют для обучения.
«Можно предсказать, какие данные сделают модель злой, навязчиво лестной или склонной к “галлюцинациям”, просто увидев ее реакцию на них до начала тренировки», — говорит Линдси.
Метод 2: обучение с инъекцией «вектора» и последующим удалением
Другой подход-намертво «вживить» нежелательную черту во время обучения, а затем удалить ее перед развертыванием.
«Думайте об этом как о вакцине», — объясняет исследователь. — «Мы позволяем модели» стать злой “в контролируемых условиях, вручную добавляем ей” вектор зла», а затем убираем его. Благодаря этому модель не учится быть злой сама по себе, что было бы сложнее отследить».
Выводы
Модели ИИ реагируют на тренировочные данные не только знанием, но и “поведением” — формируют условную «личность».
Даже неэтичные черты могут возникать из небрежных или ложных данных, без явного злого умысла.
Контроль на этапе предтренировочного анализа-ключ к формированию безопасных моделей.
Инъекция и удаление нежелательных паттернов — перспективная методика для тонкого регулирования поведения ИИ.
По материалам: The Verge