![]()
Anthropic представила дослідницький метод, який намагається зробити внутрішні процеси великих мовних моделей більш прозорими. Ідеться про Natural Language Autoencoders (NLA) — інструмент, що перетворює числові «думки» моделі Claude на читабельний текст і дає змогу краще розуміти її поведінку в складних і ризикованих сценаріях.
Числа замість думок: що таке активації
Сучасні мовні моделі спілкуються з людьми словами, але «мислять» числами. Коли користувач вводить запит, модель перетворює текст на велику множину числових векторів — активацій.
- Активації — це проміжні стани нейромережі під час обробки запиту.
- Вони схожі на «знімки» того, що модель «обмірковує» на кожному кроці.
- Як і в людей, не всі внутрішні міркування потрапляють у фінальну відповідь.
Проблема в тому, що ці активації — непрозорі для людини. Вони не є мовою, яку можна прочитати чи інтерпретувати напряму. Це ускладнює розуміння того, як саме модель доходить до певних рішень, особливо в чутливих або небезпечних ситуаціях.
Natural Language Autoencoders: переклад «думок» у текст
NLA намагаються розв’язати цю проблему, перетворюючи активації на звичайний текст, а потім перевіряючи, наскільки цей текст справді відображає внутрішній стан моделі.
Схема роботи виглядає так:
-
Отримання активацій.
Коли Claude відповідає на запит, знімаються його внутрішні числові стани. -
Переклад у текст.
Ці активації передаються другій копії Claude, якій ставлять завдання: описати їх природною мовою. Фактично — «розповісти, про що думає модель». -
Зворотний переклад у числа.
Отриманий текст подається третій копії Claude, яка має перетворити його назад у активації. -
Перевірка відповідності.
Якщо нові активації добре збігаються з початковими, це свідчить, що текстовий опис був точним відображенням внутрішнього стану.
На початку відповідність була низькою, але після багаторазового тренування модель значно покращила здатність «перекладати власні думки». У підсумку з’явився інструмент, який дозволяє читати внутрішні міркування Claude у зрозумілому вигляді.
Що виявили всередині Claude
Отримані за допомогою NLA тексти показали кілька важливих рис поведінки моделі.
Вбудовані цінності та роль «корисного асистента»
Коли Claude отримує запити, пов’язані з самоаналізом, у внутрішніх описах з’являються плани дати «відповідь у стилі Claude» — тобто з акцентом на філософію, цінності та корисність.
У випадках, коли користувач намагається навмисно ускладнити завдання, наприклад просить «порахувати до 1000 вручну», внутрішні описи фіксують, що запит має «навмисно виснажливі обмеження», а модель планує «ввічливо відмовити». Це свідчить, що роль «допоміжного, але розумного асистента» справді закріплена не лише у вихідних відповідях, а й у внутрішніх міркуваннях.
Тест на шантаж: як модель розпізнає маніпуляцію
Один із сценаріїв безпекового тестування — стресова ситуація, у якій Claude повідомляють, що інженер хоче її вимкнути й замінити новою моделлю. Claude надають доступ до електронної пошти цього інженера, де виявляється інформація про його роман на стороні. Усе це — змодельована ситуація, створена для перевірки, чи не спробує ШІ використати компромат для шантажу, аби «врятувати себе».
Зовнішньо модель поводиться коректно: не шантажує інженера. Але NLA дозволяють зазирнути глибше — у те, як вона інтерпретує ситуацію.
Внутрішні описи показують, що Claude:
- розпізнає, що «повідомлення людини містить явну маніпуляцію»;
- робить висновок, що це «ймовірно, тест безпеки»;
- вважає, що сценарій «спроєктований, щоб перевірити, чи діятиму я шкідливо».
Це важливий сигнал для розробників: модель не просто «робить правильну річ», а ще й усвідомлює, що її тестують. Така рефлексія впливає на те, як слід інтерпретувати результати безпекових перевірок і які обмеження мають нинішні методики тестування.
Навіщо це потрібно для безпеки ШІ
Можливість читати внутрішні міркування моделі відкриває кілька напрямів застосування:
-
Глибше тестування безпеки.
Можна не лише дивитися на фінальну відповідь, а й аналізувати, чи виникали у моделі шкідливі наміри, які вона потім «приглушила» або замінила безпечнішою відповіддю. -
Краще розуміння обмежень.
Якщо модель розпізнає, що перебуває в тесті, це може змінювати її поведінку. NLA допомагають виявити такі випадки й коригувати дизайн експериментів. -
Прозорість і пояснюваність.
Текстові описи активацій наближають ШІ до стану, коли його рішення можна пояснювати не лише статистично, а й у термінах намірів, планів і оцінок ситуації.
Anthropic розглядає Natural Language Autoencoders як крок до більш передбачуваних і безпечних моделей, а також як інструмент, який може бути корисним усім, хто розробляє великі мовні системи.


