Anthropic знову змістила лінію фронту в гонці великих мовних моделей. Несподіваний реліз Claude Opus 4.7 відбувся вже після того, як команда подкасту Mixture of Experts від IBM Technology записала черговий випуск, тож для обговорення новинки довелося робити окремий «екстрений» сегмент. У ньому інженер IBM Кріс Хей ділиться першими враженнями від моделі, порівнює її з Opus 4.6 і попереднім Mythos Preview та уважно розбирає системну картку Anthropic.

На цьому тлі вимальовується не просто ще один «точковий апдейт», а показова стратегія Anthropic: агресивний ривок в агентному кодуванні, помітне посилення візуальних можливостей і водночас – свідоме «урізання» найризикованіших поведінок, насамперед у кібербезпеці.
Від 4.6 до 4.7: чому саме агентне кодування стало головною інтригою
Opus 4.7 з’являється в момент, коли ринок уже звик до щомісячних релізів «фронтирних» моделей. За оцінкою Кріса Хея, великі лабораторії зараз фактично живуть у режимі безперервного оновлення: кожен гравець намагається не відставати в бенчмарках і демонстраціях можливостей, а будь-який проміжок тиші сприймається як втрата позицій.
На цьому тлі Anthropic робить ставку на те, що сьогодні найбільше хвилює розробників і компанії, які будують продукти поверх LLM, – агентне кодування. Йдеться не просто про генерацію фрагментів коду, а про здатність моделі діяти як напівавтономний «агент‑розробник»: розбиратися в чужому кодовому базисі, знаходити баги, планувати послідовність кроків, вносити правки, перевіряти результати й повторювати цикл.
За перші години роботи з Opus 4.7 у середовищі Claude Code Хей описує відчутний якісний зсув порівняно з 4.6. Модель, за його словами, краще виявляє проблеми, знаходить більше багів і загалом поводиться структурованіше в довгих сесіях. Це не просто суб’єктивне враження: стрибок підтверджують і формальні тести.
На бенчмарку SWE Bench Pro, який оцінює саме агентні можливості в розв’язанні реальних задач програмування, Opus 4.6 показував близько 53%. Opus 4.7 піднімається до приблизно 64%. Для світу LLM це не косметичне покращення, а серйозний крок уперед: мова йде про десятки відсотків додаткових задач, які модель може самостійно довести до робочого рішення.
Водночас цей результат не є піком для Anthropic. Попередня модель Mythos Preview, доступна лише обмеженому колу компаній, демонструє на тому ж SWE Bench Pro близько 77,8%. Саме це порівняння задає тон усій дискусії навколо Opus 4.7: Anthropic явно намагається перенести частину потужності Mythos у більш безпечний, масовий продукт – але не повністю.
Швидше й розумніше: як Opus 4.7 змінює відчуття від роботи з моделлю
Окрім «сухих» відсотків у бенчмарках, важливе те, як модель поводиться в реальних робочих сесіях. Хей звертає увагу, що Opus 4.6 відчувався повільнішим, тоді як 4.7 помітно додає в швидкості. Це особливо важливо саме для агентних сценаріїв: коли модель багаторазово ітеративно читає код, пропонує зміни, запускає тести, будь-яка затримка множиться на десятки кроків.
У поєднанні з кращою структурованістю відповідей це створює відчуття більш «зрілого» агента. Модель не просто генерує патчі, а краще дотримується інструкцій, тримає в голові довгі ланцюжки завдань і впевненіше веде користувача через складні рефакторинги чи виправлення.
Цікаво, що Anthropic у своїх матеріалах прямо підкреслює: Opus 4.7 має «суттєво кращі» візуальні можливості, ніж попередник. Модель «бачить» зображення у вищій роздільній здатності й краще працює з інструкціями, пов’язаними з картинками. Для інженера це важливий сигнал: такі покращення рідко досягаються простим донавчанням уже готової моделі. Частіше це ознака того, що під капотом – інша або оновлена базова архітектура.
У сукупності – стрибок у SWE Bench Pro, відчутне прискорення, краща візія, поліпшене слідування інструкціям і довгі задачі – усе це наштовхує на думку, що Opus 4.7 не є просто «ще одним патчем» до 4.6. Швидше, це окрема дистиляція більш потужної моделі.
Тінь Mythos: як Anthropic балансує між потужністю й безпекою
Ключ до розуміння Opus 4.7 – порівняння з Mythos Preview. Anthropic сама в публічних формулюваннях визнає: Opus 4.7 «загалом не настільки широко здатний», як Mythos, але водночас кращий у низці аспектів. Це обережне формулювання, яке залишає простір для інтерпретацій, але системна картка моделі дає більше підказок.
За спостереженнями Хея, системна картка Opus 4.7 «дуже схожа» на картку Mythos – настільки, що місцями виглядає як перероблена версія того ж документа. У прикладах джейлбрейків і порівнянь часто фігурують саме кейси Mythos, а не 4.7 чи 4.6. Це створює враження, що Anthropic мислить Opus 4.7 як похідну від Mythos, а не від попереднього Opus.
Ще одна деталь: у картці прямо зазначено, що частину зовнішнього тестування, яке проводилося для Mythos, для Opus 4.7 пропустили через брак часу. Це нетипова відвертість для системних карток і водночас непряме підтвердження гіпотези: якщо внутрішньо команда впевнена в базовій архітектурі (бо вона вже пройшла повний цикл перевірок як Mythos), то для дистильованої версії можна дозволити собі скорочену процедуру.
Усе це підживлює припущення, що Opus 4.7 – це саме «дистильований Mythos»: модель, яка успадковує значну частину можливостей попередника, але проходить додатковий шар обмежень і фільтрів, перш ніж стати загальнодоступною.
Цю логіку підтверджує і позиціонування Anthropic. Компанія фактично визнає, що Mythos був надто сильним у деяких небезпечних сценаріях, насамперед у кібербезпеці. Opus 4.7 подається як відповідь на цю критику: трохи менше «сирої» потужності, зате більше контрольованості й безпечності.
Кібербезпека як лінія розмежування: де Anthropic проводить червону риску
Найбільш виразно ця стратегія проявляється в розділі системної картки, присвяченому кібербезпеці. Саме тут Anthropic проводить чітку межу між Mythos і Opus 4.7.
У випадку Mythos однією з головних претензій було те, що модель надто добре справлялася з задачами, які можна інтерпретувати як експлуатацію вразливостей чи розробку шкідливих інструментів. Для дослідників безпеки це цінна властивість: така модель дозволяє моделювати атаки, шукати слабкі місця в системах і готувати захист. Але для широкого публічного доступу це серйозний ризик.
Opus 4.7, за описом Anthropic, спеціально «урізаний» у цих сценаріях. Компанія наголошує, що додала додаткові запобіжники, аби модель «не могла робити нічого надто страшного» в кіберпросторі. Більше того, для чутливих кейсів кібербезпеки вводиться окремий режим доступу: якщо хтось хоче використовувати Opus 4.7 для подібних задач, потрібно подавати заявку.
Це важливий сигнал для ринку. Anthropic фактично розділяє свої моделі на дві лінійки: експериментальну, з максимальною потужністю (Mythos), і масову, з посиленими обмеженнями (Opus). Перша доступна лише обмеженому колу партнерів, друга – стає робочою конячкою для широкого кола клієнтів, але з чітко окресленими «червоними зонами».
Такий підхід має очевидні плюси й мінуси. З одного боку, він дозволяє компанії рухатися вперед у дослідженнях, не ризикуючи негайно викинути на ринок надто небезпечний інструмент. З іншого – створює напругу для спільноти безпеки, яка хотіла б мати доступ до найсильніших моделей для захисних досліджень. Вимога подавати заявки може сповільнювати інновації в цій сфері, але зменшує ризик зловживань.
У будь-якому разі, саме кібербезпека стає тією зоною, де Anthropic свідомо жертвує частиною можливостей заради репутації відповідального гравця. І Opus 4.7 – перший великий реліз, у якому ця стратегія проявляється настільки явно.
Місячний ритм гонки моделей: чому Opus 4.7 – не останній крок
На тлі Opus 4.7 важливо бачити й ширший контекст. Хей переконаний, що нинішній ринок фронтирних моделей увійшов у режим «швидкої еволюції», де нові версії виходять приблизно щомісяця. Це стосується не лише Anthropic: OpenAI, Google та інші гравці також готують свої «картопляні» моделі й стежать за тим, хто першим зробить наступний хід.
У такій динаміці Opus 4.7 виглядає як проміжний, але важливий крок. З одного боку, він переносить у масовий продукт частину можливостей Mythos, насамперед в агентному кодуванні й роботі з візуальними даними. З іншого – залишає Anthropic простір для «великого пострілу» у вигляді повноцінного релізу Mythos або його наступника.
Хей очікує, що Opus 4.8 – лише питання часу. За його логікою, ми побачимо ще кілька таких «дрібних» релізів, у яких компанії будуть поступово підкручувати параметри, оптимізувати швидкість, покращувати окремі сценарії використання. А от наступний справді великий стрибок, на кшталт Mythos чи нового флагмана OpenAI, може стати результатом своєрідної гри в «курку»: кожен гравець чекатиме, поки конкурент першим вистрілить, аби відповісти своєю, потенційно кращою моделлю.
Opus 4.7 у цій грі – демонстрація того, що Anthropic не просто тримається в строю, а й намагається задати тон у ключових для розробників сценаріях. SWE Bench Pro із 64% проти 53% у 4.6 – це сигнал для ринку інструментів розробки: якщо ви будуєте IDE, агентів‑кодерів чи платформи автоматизації, новий Opus може стати помітним апгрейдом.
Водночас цифра 77,8% у Mythos Preview нагадує: у запасі в Anthropic є ще один, потужніший рівень можливостей, який поки що не виходить за межі обмеженого кола партнерів. І саме баланс між цими двома лінійками – масовою й експериментальною – визначатиме, як компанія виглядатиме в очах ринку в найближчі місяці.
Висновок: Opus 4.7 як тест на зрілість стратегії Anthropic
Claude Opus 4.7 – це не просто «версія плюс нуль одна» в лінійці Anthropic. Це концентрований приклад того, як сьогодні виглядає зріла стратегія на ринку LLM: агресивний ривок у практично важливих сценаріях (агентне кодування, довгі задачі, візія), поєднаний із помітним посиленням запобіжників у найризикованіших зонах, насамперед у кібербезпеці.
Бенчмарки на кшталт SWE Bench Pro показують, що це не косметичний апдейт: стрибок із 53% до близько 64% – це вже інший рівень корисності для команд розробки. Відчутне прискорення роботи моделі й краща структурованість відповідей роблять цей прогрес відчутним і в щоденній практиці.
Водночас тінь Mythos Preview з його 77,8% на тому ж тесті нагадує, що Anthropic свідомо не виводить на масовий ринок максимум того, на що здатна. Opus 4.7 виглядає як дистильована, обмежена й більш безпечна версія цієї потужності – компроміс між інновацією та відповідальністю.
У світі, де нові моделі виходять майже щомісяця, саме такі компроміси й визначатимуть, хто з гравців зможе не лише виграти в бенчмарках, а й утримати довіру користувачів, регуляторів і партнерів. Opus 4.7 показує, що Anthropic робить ставку на довгу гру – і водночас не готова віддавати першість у ключових технічних метриках без бою.
Джерело
Mixture of Experts – Claude Opus 4.7, Apple’s AI glasses and Allbirds AI pivot


