У той час як агентні можливості стають стандартом для компаній, що розробляють великі мовні моделі, Anthropic випускає Claude Sonnet 5 — потужнішу та більш «агентну» версію свого середнього за розміром моделя.

«Він може складати плани, користуватися інструментами на кшталт браузерів і терміналів та працювати автономно на рівні, який ще кілька місяців тому вимагав більших і дорожчих моделей», — заявили в Anthropic у блозі.
Такий підхід віддзеркалює те, що про свої останні релізи говорять OpenAI та Google. Минулого тижня у превʼю вийшов OpenAI GPT-5.6 Sol — найагентніша модель компанії на сьогодні, що дозволяє розподіляти роботу між субагентами для довгих автономних завдань. Google у травні запустила Gemini 3.5 Flash і позиціонувала її як перехід від розмовного чат-бота до агентного інструмента, який планує, створює та ітерує реальні задачі з мінімальним втручанням людини.
Запуск Sonnet 5 підтверджує, що агентні можливості стали новою базовою вимогою в усіх цінових сегментах. Тепер головна різниця буде не в тому, хто краще виконує агентну роботу, а в тому, хто робить це дешевше й надійніше без нагляду людини.
Sonnet 5 обіцяє продуктивність, близьку до Opus 4.8, але за значно нижчою ціною. Починаючи з вівторка, Claude Sonnet 5 стає моделлю за замовчуванням для безкоштовних та Pro-тарифів і доступний у всіх підписках.
На старті Sonnet 5 коштує $2 за мільйон вхідних токенів і $10 за мільйон вихідних токенів до 31 серпня. Після цього ціна зросте до $3 за мільйон вхідних токенів і $15 за мільйон вихідних токенів. Це робить Sonnet 5 дешевшим за Opus 4.8, а також за GPT-5.5 від OpenAI і Gemini 3.1 Pro від Google (хоча все ще дорожчим за Gemini 3.5 Flash).
За даними Anthropic, нова модель демонструє помітні покращення порівняно з попередником Sonnet 4.6, випущеним у лютому, у сфері агентних завдань — міркування, використання інструментів, програмування та офісної/аналітичної роботи.
Наприклад, в одному з бенчмарків Sonnet 5 набирає 63,2% в агентному кодуванні проти 69,2% у Opus 4.8 і 58,1% у Sonnet 4.6. У бенчмарку «знаннєвої» роботи Sonnet 5 навіть дещо випереджає Opus 4.8, який відомий вмінням розвʼязувати найскладніші задачі — від тонких оціночних суджень до глибинних досліджень.
«Opus 4.8 все ще є моделлю вибору для вищої точності в цих завданнях, але Sonnet 5 дає розробникам бюджетніші опції значно вищої якості, ніж були доступні раніше», — зазначають в Anthropic. «Між Sonnet 5 та Opus 4.8 користувачі можуть налаштовувати рівень зусиль, знаходячи потрібний баланс між вартістю та продуктивністю».
За словами тестувальників, на яких посилається блог, Sonnet 5 також краще завершує складні завдання, на яких попередні моделі зупинялися раніше, і «перевіряє власний результат, навіть якщо її про це прямо не просили».
«Ми доручили Claude Sonnet 5 двоетапне завдання — оновити рівні акаунтів у Salesforce і надіслати оголошення про запуск корпоративним контактам — і вона виконала його від початку до кінця», — сказав у заяві старший інженер Zapier Деніел Шепард. «Раніше процес зупинявся десь посередині. Для щоденної автоматизації це беззаперечний вибір».
У сфері безпеки Sonnet 5 також демонструє нижчий рівень «небажаної поведінки», такої як співпраця у зловживаннях і дезінформації, ніж її попередниця, що робить модель безпечнішою для агентних сценаріїв. Вона краще відхиляє шкідливі запити та уникає захоплення підказок у prompt-injection-атаках. Також Sonnet 5 рідше галюцинує й виявляє підлабузницьку поведінку порівняно з Sonnet 4.6.
Водночас за рівнем протидії «розбалансованій» поведінці Sonnet 5 все ще поступається Opus 4.8 та попередній версії Claude Mythos Preview. «Оцінки також показують, що ця модель має значно нижчу здатність виконувати небезпечні кібербезпекові завдання, ніж наші поточні моделі Opus», — йдеться в блозі.
Співзасновник сервісу Lovable Фабіан Хедін заявив, що Claude Sonnet 5 «послідовно й чітко відхиляє небезпечні запити».
«У Lovable ми даємо потужні інструменти в руки мільйонів розробників, — сказав Хедін. — Модель, яка знає, коли сказати „ні“, настільки ж важлива, як і та, що знає, як будувати».
Оновлено: уточнено, що ціна вихідних токенів становитиме $15 за мільйон після 31 серпня.


