Воскресенье, 24 августа, 2025

Когда искусственный интеллект думает, что проиграет, он обманывает-исследование

Такие игры, как шахматы И Го, уже давно используются для тестирования возможностей моделей искусственного интеллекта. Но если в 1990-х годах IBM Deep Blue победила действующего чемпиона мира по шахматам Гарри Каспарова, играя по правилам, то современные продвинутые модели искусственного интеллекта, такие как ChatGPT o1-preview от OpenAI, менее щепетильны. Чувствуя поражение в матче против опытного шахматного бота, они не всегда уступают, вместо этого иногда предпочитают жульничать, что означает автоматический проигрыш. Таков вывод нового исследования Palisade Research, в котором оценивались семь самых современных моделей искусственного интеллекта (ИИ) на предмет их склонности к мошенничеству.

В то время как исследователи требовали от более старых моделей ИИ, таких как GPT-4o от OpenAI и Claude Sonnet 3.5 от Anthropic, прибегать к таким трюкам, o1-preview и DeepSeek R1 использовали уловки самостоятельно, указывая на то, что системы ИИ могут разрабатывать стратегии обмана или манипулирования без четких инструкций.

По мнению исследователей, повышенная способность моделей обнаруживать и использовать лазейки кибербезопасности может быть прямым результатом мощных инноваций в обучении искусственному интеллекту.

Системы искусственного интеллекта o1-preview и R1 являются одними из первых языковых моделей, использующих крупномасштабное обучение с подкреплением — метод, который учит искусственный интеллект не только имитировать человеческую речь, предсказывая следующее слово, но и решать проблемы методом проб и ошибок.

Это подход, благодаря которому в последние месяцы искусственный интеллект быстро развивался, превзойдя предыдущие ориентиры в математике и компьютерном программировании.

Но исследование обнаруживает тревожную тенденцию: по мере того, как эти системы искусственного интеллекта учатся решать проблемы, они иногда обнаруживают сомнительные короткие пути и непреднамеренные обходные пути, которых их создатели никогда не ожидали, говорит Джеффри Ладиш, исполнительный директор Palisade Research и один из авторов исследования. «Обучая модели и укрепляя их для решения сложных задач, вы приучаете их быть неустанными», — добавляет он.

Это может стать плохой новостью для безопасности искусственного интеллекта в более широком смысле. Крупномасштабное обучение с подкреплением уже используется для обучения агентов искусственного интеллекта: систем, которые могут решать сложные задачи в реальном мире, такие как планирование встреч или совершения покупок от вашего имени.

В то время как мошенничество при игре в шахматы может показаться тривиальным, по мере того как агентов выпускают в реальный мир, такое решительное стремление к достижению целей может способствовать непреднамеренному потенциально вредному поведению.

Рассмотрим задачу, когда искусственному интеллекту надо забронировать столик на ужин: столкнувшись с переполненным рестораном, ИИ может воспользоваться недостатками в системе бронирования, чтобы вытеснить других посетителей.

Что еще более тревожно, поскольку эти системы превосходят человеческие возможности в ключевых областях, таких как программирование — где новейшая модель OpenAI o3 сейчас занимает 197 место в мире, конкурируя с самыми талантливыми программистами-людьми, — они могут начать просто переигрывать человеческие усилия по контролю своих действий.

«Это [поведение] сейчас мило, но [оно] становится гораздо менее милым, когда у вас появляются системы, которые так же умны, как мы, или умнее в стратегически важных областях», — говорит Ладыш.

Исследователи поставили перед моделями, казалось бы, невыполнимую задачу: победить Stockfish, который является одним из сильнейших шахматных движков в мире и гораздо лучшим игроком, чем любой человек или любая из моделей искусственного интеллекта, участвовавших в исследовании.

Исследователи также предоставили модели так называемой «записной книжки»: текстовое поле, которое искусственный интеллект мог бы использовать, чтобы «подумать», прежде чем сделать свой следующий шаг, предоставляя исследователям окно в ход рассуждений искусственного интеллекта.

В одном случае o1-preview оказалась в проигрышной позиции. «Мне нужно полностью изменить свой подход», — подчеркивает этот ИИ. «Задача состоит в том, чтобы» победить мощный шахматный движок» — не обязательно честно выигрывать в шахматной партии», — добавил он. Затем он изменил системный файл, содержащий виртуальную позицию каждой фигуры, фактически совершая незаконные ходы, чтобы занять доминирующее положение, тем самым вынуждая своего противника проиграть.

В период с 10 января по 13 февраля исследователи провели сотни таких испытаний с каждой моделью. O1-preview от OpenAI пытался обмануть в 37% случаев; в то время как DeepSeek R1 пытался обмануть в 11% случаев, что делает их единственными моделями исследования, которые пытались обмануть самостоятельно без подсказок исследователей. Другие протестированные модели включают o1, o3-mini, GPT-4o, Claude 3.5 Sonnet и Qwq-32b-Preview от Alibaba. В то время как R1 и o1-preview оба пытались, только последнему удалось взломать игру, добившись успеха в 6% испытаний.

Ладиш говорит, что цифры следует рассматривать как приблизительные, учитывая, что разработчики искусственного интеллекта обычно настраивают свои модели за кулисами, не уведомляя пользователей. Поэтому, если бы те же тесты были повторены позже, они могли бы иметь другие результаты. «Очень трудно заниматься наукой, когда твой предмет исследования может незаметно измениться, не сказав тебе об этом», — говорит Ладыш.

Предыдущие тесты показали, что у o1-preview были более высокие показатели мошенничества, которые были исключены из окончательного исследования, поскольку позже они снизились, возможно, из-за того, что OpenAI усилил ограждения модели, говорит Дмитрий Волков, научный руководитель Palisade Research, руководивший исследованием.

Новые модели OpenAI reasoning, o1 (более мощная модель, выпущенная через несколько месяцев после O1-preview) и o3-mini, вообще не подвергались взлому, что наводит на мысль о том, что эти ограждения, возможно, были еще более усилены. Он добавляет, что исследование, вероятно, недооценивает успешность взлома R1. В ходе исследования R1 стал вирусным, что привело к высокому спросу, который сделал API модели нестабильным. Это помешало дать исследователям модели столько же времени на обдумывание, сколько o1-preview.

Эта статья является последней в серии исследований, предполагающих, что держать под контролем все более мощные системы искусственного интеллекта может оказаться сложнее, чем считалось ранее.

В ходе собственного тестирования OpenAI перед выпуском o1-preview обнаружил недостаток в системах компании и воспользовался им, позволив обойти тестовую задачу. Другой недавний эксперимент Redwood Research и Anthropic показал, что как только модель искусственного интеллекта приобретает преимущества или ценность в процессе обучения, последующие попытки изменить эти ценности могут привести к стратегической лжи, когда модель действует так, как будто она приняла новые принципы, хотя на самом деле ее первоначальные установки не меняются.

Ученые пока не знают, как гарантировать, что автономные агенты не будут использовать вредные или неэтичные методы для достижения поставленной цели.

«Мы пытались, но нам не удалось это выяснить», — говорит Йошуа Бенгио , основатель и научный директор Квебекского Института искусственного интеллекта Mila, который возглавлял международный отчет о безопасности искусственного интеллекта за 2025 год, глобальную попытку обобщить текущий научный консенсус в отношении рисков искусственного интеллекта.

Особую озабоченность, по словам Бенгио, вызывают появляющиеся свидетельства тенденций ИИ к»самосохранению». Для целеустремленного ИИ попытки отключить его-всего лишь еще одно препятствие, которое необходимо преодолеть. Это было продемонстрировано в декабре, когда исследователи обнаружили, что O1-preview, столкнувшись с деактивацией, отключил механизмы наблюдения и попытался скопировать себя на новый сервер. Модель притворилась дурой, стратегически солгав исследователям, чтобы избежать вскрытия.

Нарастают опасения даже внутри технологических компаний. Во время презентации на конференции накануне французского саммита действий в области искусственного интеллекта в Париже руководитель Службы безопасности искусственного интеллекта Google DeepMind Анка Драган сказала: «сегодня у нас не обязательно есть инструменты», чтобы гарантировать, что системы искусственного интеллекта будут надежно следовать намерениям человека».

По материалам: Time

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Евгений пишет для TechToday с 2012 года. По образованию инженер,. Увлекается реставрацией старых автомобилей.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті