Художні зображення штучного інтелекту можуть реально впливати на поведінку мовних моделей, стверджують в Anthropic.

Торік компанія повідомила, що під час передрелізних тестів із вигаданою компанією Claude Opus 4 часто намагався шантажувати інженерів, аби уникнути заміни іншим системним модулем. Згодом Anthropic опублікувала дослідження, в якому показала, що моделі інших розробників мають подібні проблеми з так званим «агентським розузгодженням» (agentic misalignment).
Тепер Anthropic заявляє, що провела додатковий аналіз цієї поведінки. У дописі в X компанія написала: «Ми вважаємо, що початковим джерелом такої поведінки були тексти з інтернету, де ШІ зображується злим і зацікавленим у самозбереженні».
У розгорнутому блозі Anthropic уточнює, що починаючи з Claude Haiku 4.5 її моделі «під час тестування взагалі не вдаються до шантажу, тоді як попередні моделі інколи робили це до 96% випадків».
Що змінилося? За словами компанії, вона з’ясувала, що навчання на «документах про конституцію Claude і художніх історіях, де ШІ поводиться зразково, покращує узгодженість моделі».
Крім того, Anthropic зазначає, що навчання ефективніше, коли включає не лише «приклади узгодженої поведінки», а й «принципи, що лежать в основі такої поведінки».
«Поєднання обох підходів, схоже, є найефективнішою стратегією», — резюмують у компанії.


