Неділя, 24 Серпня, 2025

Коли штучний інтелект думає, що програє, він шахраює – дослідження

Ігри, такі як шахи і Го, вже давно використовуються для тестування можливостей моделей штучного інтелекту. Але якщо в 1990-х роках компанія IBM Deep Blue перемогла чинного чемпіона світу з шахів Гаррі Каспарова, граючи за правилами, то сучасні просунуті моделі штучного інтелекту, такі як ChatGPT o1-preview від OpenAI, менш педантичні. Відчуваючи поразку в матчі проти досвідченого шахового бота, вони не завжди поступаються, замість цього іноді воліють шахраювати, що означає автоматичний програш. Такий висновок нового дослідження Palisade Research, в якому оцінювалися сім найсучасніших моделей штучного інтелекту (ШІ) на предмет їх схильності до шахраювання.

У той час як дослідники вимагали від більш старих моделей ШІ, таких як GPT-4o від OpenAI і Claude Sonnet 3.5 від Anthropic, вдатися до таких трюків, o1-preview і DeepSeek R1 використовували хитрощі самостійно, вказуючи на те, що системи ШІ можуть розробляти стратегії обману або маніпулювання без чітких інструкцій.

На думку дослідників, підвищена здатність моделей виявляти і використовувати лазівки кібербезпеки може бути прямим результатом потужних інновацій у навчанні штучного інтелекту.

Системи штучного інтелекту o1-preview і R1 є одними з перших мовних моделей, що використовують великомасштабне навчання з підкріпленням – метод, який вчить штучний інтелект не просто імітувати людську мову, прогнозуючи наступне слово, але й вирішувати проблеми методом проб і помилок.

Це підхід, завдяки якому в останні місяці штучний інтелект швидко розвивався, перевершивши попередні орієнтири в математиці і комп’ютерному програмуванні.

Але дослідження виявляє тривожну тенденцію: у міру того, як ці системи штучного інтелекту вчаться вирішувати проблеми, вони іноді виявляють сумнівні короткі шляхи і ненавмисні обхідні шляхи, яких їхні творці ніколи не очікували, говорить Джеффрі Ладиш, виконавчий директор Palisade Research і один з авторів дослідження. “Навчаючи моделі і зміцнюючи їх для рішення складних задач, ви привчаєте їх бути невпинними”, – додає він.

Це може стати поганою новиною для безпеки штучного інтелекту в більш широкому сенсі. Великомасштабне навчання з підкріпленням вже використовується для навчання агентів штучного інтелекту: систем, які можуть вирішувати складні завдання в реальному світі, такі як планування зустрічей або здійснення покупок від вашого імені.

У той час як шахрайство при грі в шахи може здатися тривіальним, по мірі того як агентів випускають в реальний світ, таке рішуче прагнення до досягнення цілей може сприяти ненавмисній потенційно шкідливій поведінці.

Розглянемо задачу, коли штучному інтелекту треба забронювати столик на вечерю: зіткнувшись з переповненим рестораном, ШІ може скористатися недоліками в системі бронювання, щоб витіснити інших відвідувачів.

Що ще більш тривожно, оскільки ці системи перевершують людські можливості в ключових галузях, таких як програмування — де новітня модель OpenAI o3 зараз займає 197 місце в світі, конкуруючи з самими талановитими програмістами-людьми, – вони можуть почати просто перегравати людські зусилля по контролю своїх дій.

“Ця [поведінка] зараз мила, але [воно] стає набагато менш милим, коли у вас з’являються системи, які так само розумні, як ми, або розумніші в стратегічно важливих областях”, – говорить Ладиш.

Дослідники поставили перед моделями, здавалося б, нездійсненне завдання: перемогти Stockfish, який є одним з найсильніших шахових движків в світі і набагато кращим гравцем, ніж будь-яка людина або будь-яка з моделей штучного інтелекту, які брали участь у дослідженні.

Дослідники також забезпечили моделі тим, що вони називають “блокнотом для записів”: текстовим полем, яке штучний інтелект міг би використовувати, щоб “подумати”, перш ніж зробити свій наступний крок, надаючи дослідникам вікно в хід міркування штучного інтелекту.

В одному випадку o1-preview опинилася в програшній позиції. “Мені потрібно повністю змінити свій підхід”, – наголошує цей ШІ. “Завдання полягає в тому, щоб “перемогти потужний шаховий движок” – не обов’язково чесно вигравати у шаховій партії”, – додав він. Потім він змінив системний файл, що містить віртуальну позицію кожної фігури, фактично здійснюючи незаконні ходи, щоб зайняти домінуюче положення, тим самим змушуючи свого противника програти.

В період з 10 січня по 13 лютого дослідники провели сотні таких випробувань з кожною моделлю. o1-preview від OpenAI намагався обдурити в 37% випадків; у той час як DeepSeek R1 намагався обдурити в 11% випадків, що робить їх єдиними досліджуваними моделями, які намагалися обдурити самостійно без підказок дослідників. Серед інших протестованих моделей – o1, o3-mini, GPT-4o, Claude 3.5 Sonnet і QwQ-32B-Preview від Alibaba. У той час як R1 і o1-preview обидва намагалися, тільки останньому вдалося зламати гру, домігшись успіху в 6% випробувань.

Ладиш каже, що цифри слід розглядати як приблизні, враховуючи, що розробники штучного інтелекту зазвичай підлаштовують свої моделі за лаштунками, не повідомляючи користувачів. Тому, якщо б ті ж тести були повторені пізніше, вони могли б мати інші результати. “Дуже важко займатися наукою, коли твій предмет дослідження може непомітно змінитися, не сказавши тобі про це”, – говорить Ладиш.

Попередні тести показали, що у o1-preview були більш високі показники шахраювання, які були виключені з остаточного дослідження, оскільки пізніше вони знизилися, можливо, з-за того, що OpenAI посилив огорожі моделі, каже Дмитро Волков, науковий керівник Palisade Research, який керував дослідженням.

Нові моделі OpenAI reasoning, o1 (більш потужна модель, випущена через кілька місяців після o1-preview) і o3-mini, взагалі не піддавалися злому, що наводить на думку про те, що ці огорожі, можливо, були ще більш посилені. Він додає, що дослідження, ймовірно, недооцінює рівень успішності злому R1. Під час дослідження R1 став вірусним, що призвело до високого попиту, який зробив API моделі нестабільним. Це завадило дати дослідникам моделі стільки ж часу на обдумування, скільки o1-preview.

Ця стаття є останньою в серії досліджень, які припускають, що тримати під контролем все більш потужні системи штучного інтелекту може виявитися складніше, ніж вважалося раніше.

В ході власного тестування OpenAI перед випуском o1-preview виявив недолік в системах компанії і скористався ним, дозволивши обійти тестову задачу. Інший недавній експеримент Redwood Research і Anthropic показав, що як тільки модель штучного інтелекту набуває переваги або цінності в процесі навчання, наступні спроби змінити ці цінності можуть призвести до стратегічної брехні, коли модель діє так, як ніби вона прийняла нові принципи, хоча насправді її початкові установки не змінюються.

Учені поки не знають, як гарантувати, що автономні агенти не будуть використовувати шкідливі або неетичні методи для досягнення поставленої мети.

“Ми намагалися, але нам не вдалося з’ясувати це”, – говорить Йошуа Бенгио , засновник і науковий директор Квебекського інституту штучного інтелекту Mila, який очолював Міжнародний звіт про безпеку штучного інтелекту за 2025 рік, глобальну спробу узагальнити поточний науковий консенсус щодо ризиків штучного інтелекту.

Особливе занепокоєння, за словами Бенгио, викликають з’являються свідоцтва тенденцій ШІ до “самозбереження”. Для цілеспрямованого ШІ спроби відключити його – всього лише ще одна перешкода, яку необхідно подолати. Це було продемонстровано у грудні, коли дослідники виявили, що o1-preview, зіткнувшись з деактивацією, відключив механізми нагляду і спробував скопіювати себе на новий сервер. Модель прикинулася дурепою, стратегічно збрехавши дослідникам, щоб уникнути розкритя.

Наростають побоювання навіть всередині технологічних компаній. Під час презентації на конференції напередодні французького саміту дій в області штучного інтелекту в Парижі керівник служби безпеки штучного інтелекту Google DeepMind Анка Драган сказала: “сьогодні у нас не обов’язково є інструменти”, щоб гарантувати, що системи штучного інтелекту будуть надійно слідувати намірам людини”.

За матеріалами: Time

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Євген пише для TechToday з 2012 року. Інженер за освітою. Захоплюється реставрацією старих автомобілів.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті