Уряд США у п’ятницю зобов’язав Anthropic негайно припинити доступ до двох своїх найпотужніших моделей ШІ — Claude Fable 5 та Claude Mythos 5 — пославшись на міркування національної безпеки. Anthropic оголосила в X, що виконала вимогу, але чітко дала зрозуміти: компанія вважає, що уряд помиляється.

Згідно з Anthropic, директиву компанія отримала в п’ятницю о 17:21 за східним часом США. Вона змушує вимкнути обидві моделі для всіх користувачів у світі, а не лише для іноземних громадян, на яких формально були спрямовані експортні обмеження. Доступ до інших моделей Anthropic не обмежено.
Чому це важливо? Mythos — це найздатніша ІІ-модель Anthropic, яку компанія вперше показала на початку квітня і відтоді тримала у жорстких обмеженнях. Anthropic пояснювала це «винятковою здатністю» Mythos знаходити вразливості безпеки в ПЗ. За даними компанії, Mythos виявила недоліки в усіх основних операційних системах та веббраузерах, які тестувалися. Замість широкого релізу Anthropic запустила контрольовану програму Project Glasswing, надавши доступ приблизно 50 відібраним організаціям, зокрема Amazon, Apple, Google, Microsoft і CrowdStrike, для використання моделі в оборонній кібербезпеці.
Fable 5, яку запустили лише три дні тому, стала відповіддю Anthropic на очевидний комерційний тиск: це версія Mythos з вбудованими обмеженнями, що блокують відповіді у високоризикових сферах, як-от кібербезпека та біологія. На думку компанії, це робило модель достатньо безпечною для масового використання. Згідно з бенчмарками компанії Vals AI, яка відстежує продуктивність ІІ-систем, Fable 5 одразу стала найздатнішою моделлю ШІ з публічним доступом.
Директива уряду подана як експортний контроль, що обмежує доступ іноземних громадян до моделей. Однак у розгорнутому дописі в блозі Anthropic зазначає, що, за її розумінням, справжня причина — заявлений джейлбрейк Fable 5. За словами компанії, наразі уряд надав лише усні докази «потенційного вузького, неуніверсального джейлбрейку» — сценарію, який зводиться до того, що модель просять проаналізувати конкретну кодову базу та знайти в ній помилки. І, як додає Anthropic, такий «рівень можливостей» уже давно доступний в інших публічних моделях, зокрема в GPT-5.5 від OpenAI. До того ж, за словами Anthropic, подібний аналіз рутинно використовують фахівці з кібербезпеки для оборонних задач.
Більш загальний аргумент Anthropic полягає в тому, що її найсильніші системи безпеки реалізовані як незалежні класифікатори, які працюють окремо від самої моделі. Це означає, що навіть якщо комусь вдасться змусити Fable продовжувати відповідати після первинної відмови, базові захисні механізми проти найнебезпечніших видів контенту залишаються активними.
Очевидно, цього виявилося недостатньо, щоб зупинити дії уряду, і Anthropic не приховує роздратування. «Ми не погоджуємося з тим, що виявлення вузького потенційного джейлбрейку має стати підставою для відкликання комерційної моделі, розгорнутої для сотень мільйонів людей», — написала компанія. «Якщо застосувати такий стандарт до всієї індустрії, це фактично зупинить запуск нових моделей усіма провайдерами передових ІІ-систем».
Очікується, що Anthropic цього року вийде на біржу, і значну частину своєї публічної репутації компанія побудувала на образі «безпечнішої» альтернативи конкурентам. Спостерігачі не оминають іронії в тому, що саме обережність Anthropic щодо Mythos — моделі, яку вона сама подала як настільки небезпечну, що її не можна публічно випускати, — тепер, схоже, привернула саме той тип уваги уряду, який може найбільше зашкодити її бізнесу.


