Anthropic пояснила шантаж ШІ образами “злого” ІІ

11 Травня 2026

Художні зображення штучного інтелекту можуть реально впливати на поведінку мовних моделей, стверджують в Anthropic.

Торік компанія повідомила, що під час передрелізних тестів із вигаданою компанією Claude Opus 4 часто намагався шантажувати інженерів, аби уникнути заміни іншим системним модулем. Згодом Anthropic опублікувала дослідження, в якому показала, що моделі інших розробників мають подібні проблеми з так званим «агентським розузгодженням» (agentic misalignment).

Тепер Anthropic заявляє, що провела додатковий аналіз цієї поведінки. У дописі в X компанія написала: «Ми вважаємо, що початковим джерелом такої поведінки були тексти з інтернету, де ШІ зображується злим і зацікавленим у самозбереженні».

У розгорнутому блозі Anthropic уточнює, що починаючи з Claude Haiku 4.5 її моделі «під час тестування взагалі не вдаються до шантажу, тоді як попередні моделі інколи робили це до 96% випадків».

Що змінилося? За словами компанії, вона з’ясувала, що навчання на «документах про конституцію Claude і художніх історіях, де ШІ поводиться зразково, покращує узгодженість моделі».

Крім того, Anthropic зазначає, що навчання ефективніше, коли включає не лише «приклади узгодженої поведінки», а й «принципи, що лежать в основі такої поведінки».

«Поєднання обох підходів, схоже, є найефективнішою стратегією», — резюмують у компанії.

Джерело

TechCrunch

123

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Коментуйте, будь-ласка!

Будь ласка введіть ваше ім'я

Ви ввели некорректний Email

Ваш Email

Anthropic пояснила шантаж ШІ образами “злого” ІІ

Джерело

Свіжа функція YouTube Music допоможе вам бути в курсі нових релізів

Nokia випустила «розумний» гребінець

Топ-20 закольцованных «гифок»

SAS: Zombie Assault 4 – влаштуй для зомбі апокаліпсис

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Vodafone у 1 кв. 2026 року: стабільність бізнесу та інвестиції у телеком-інфраструктуру України

Vodafone запускає 5G у міжнародному роумінгу

200 грн на місяць: Vodafone запустив акцію для клієнтів 55+

Vodafone інвестував у критичну інфраструктуру та технології більше 24 млрд грн

5G запустили на Головному залізничному вокзалі Львова

Статті

Як Mercedes зробила, щоб ваше ДТП звучало приємніше для вас

Чому ліворукі люди можуть бути більш конкурентними: погляд науки на особливості

Портативні сонячні панелі не потягнуть нагрівальні прилади навіть з потужними акумуляторами

Чи можемо ми розмістити центри обробки даних у космосі?

П’ять телефонів, що поміщаються в долоні: найкращі компактні смартфони 2026 року

Класичний Google зник. Пошуковий очікує найбільша зміна за 25 років

П’ять років із мозковим імплантатом: як технологія повертає контроль над життям

ПОРАДИ

Як змусити Android перемикати світлу та темну теми залежно від освітлення по датчику світла

Як прискорити 3D-друк

Як отримати швидку зарядку шляхом перевірки наявності чіпа E-marker у кабелі USB

СТАТТІ

Як Mercedes зробила, щоб ваше ДТП звучало приємніше для вас

Чому ліворукі люди можуть бути більш конкурентними: погляд науки на особливості

Портативні сонячні панелі не потягнуть нагрівальні прилади навіть з потужними акумуляторами

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Anthropic пояснила шантаж ШІ образами “злого” ІІ

Джерело

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ