Anthropic пояснила шантаж ШІ образами “злого” ІІ

11 Травня 2026

Художні зображення штучного інтелекту можуть реально впливати на поведінку мовних моделей, стверджують в Anthropic.

Торік компанія повідомила, що під час передрелізних тестів із вигаданою компанією Claude Opus 4 часто намагався шантажувати інженерів, аби уникнути заміни іншим системним модулем. Згодом Anthropic опублікувала дослідження, в якому показала, що моделі інших розробників мають подібні проблеми з так званим «агентським розузгодженням» (agentic misalignment).

Тепер Anthropic заявляє, що провела додатковий аналіз цієї поведінки. У дописі в X компанія написала: «Ми вважаємо, що початковим джерелом такої поведінки були тексти з інтернету, де ШІ зображується злим і зацікавленим у самозбереженні».

У розгорнутому блозі Anthropic уточнює, що починаючи з Claude Haiku 4.5 її моделі «під час тестування взагалі не вдаються до шантажу, тоді як попередні моделі інколи робили це до 96% випадків».

Що змінилося? За словами компанії, вона з’ясувала, що навчання на «документах про конституцію Claude і художніх історіях, де ШІ поводиться зразково, покращує узгодженість моделі».

Крім того, Anthropic зазначає, що навчання ефективніше, коли включає не лише «приклади узгодженої поведінки», а й «принципи, що лежать в основі такої поведінки».

«Поєднання обох підходів, схоже, є найефективнішою стратегією», — резюмують у компанії.

Джерело

TechCrunch

180

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Коментуйте, будь-ласка!

Будь ласка введіть ваше ім'я

Ви ввели некорректний Email

Ваш Email

Anthropic пояснила шантаж ШІ образами “злого” ІІ

Джерело

Випускні промови 2026 року: студенти освистують ШІ

Cloudflare запустила «сімейний DNS» для безпечного інтернет-серфінгу

Чому Париж стає головним центром ШІ після Силіконової долини

У грудні безповоротно зникне доступ до частини інтернет-контенту: Adobe видаляє Flash Player зі свого сайту

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

200 тисяч клієнтів протестували 5G у Харкові

Vodafone Україна побудує надсучасний підземний дата-центр

Vodafone Україна залучив €30 млн фінансування для розвитку мережі у співпраці з Nokia, ING та Finnvera

Інтернет Vodafone, що працює без електрики, охопив 2 млн домогосподарств

Vodafone додав сонячну генерацію на перші 100 базових станцій

Статті

AI-відновлення фото підміняє обличчя родичів, знищуючи справжню сімейну історію

Як виходить, що ви обігнали когось на дорозі, а він знову з’являється попереду: вчені пояснили невидиму силу статистики

2026 рік: хай-тек на межі краху, мільярди зникають, а користувачі стають жертвами

Чи може штучний інтелект генерувати нові ідеї?

Чи можна зупинити розплавлення ядерного реактора?

Здається, пари почали використовувати чат-ботів як заміну реальним стосункам

Імперія спостереження, яка відстежувала світових лідерів, ворога Ватикану і, можливо, вас

ПОРАДИ

Чому iPhone робить екран тьмянішим

Як оновити iPad через Finder на комп’ютері Mac при невдалому встановленні iPadOS

Як приховати останній візит і статус «онлайн» у Telegram

СТАТТІ

AI-відновлення фото підміняє обличчя родичів, знищуючи справжню сімейну історію

Як виходить, що ви обігнали когось на дорозі, а він знову з’являється попереду: вчені пояснили невидиму силу статистики

2026 рік: хай-тек на межі краху, мільярди зникають, а користувачі стають жертвами

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Anthropic пояснила шантаж ШІ образами “злого” ІІ

Джерело

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ