Середа, 24 Червня, 2026

Верифікаційні Claude Skills: як Anthropic множить якість у кілька разів

Anthropic, компанія за штучним інтелектом Claude, оприлюднила внутрішній підхід до того, як її команди — від інженерів до маркетингу й юридичного відділу — будують та використовують Claude Skills. Підприємець і розробник Остін Марчезе розібрав цю «плейбук-логіку» у великому відеоогляді. Окрема лінія в цій історії — верифікаційні skills: саме їх в Anthropic вважають головним важелем для підвищення якості результатів Claude.

Чому верифікація стала головною ставкою Anthropic

У внутрішніх матеріалах Anthropic прямо сказано: верифікаційні skills мали «найбільш вимірюваний вплив» на якість вихідних результатів Claude. Настільки значний, що, за формулюванням компанії, «може бути виправданим, щоб інженер витратив тиждень лише на те, щоб зробити ваші верифікаційні skills відмінними».

Це не декоративна надбудова над основною роботою моделі, а системне рішення: Anthropic фактично виділяє верифікацію в окремий шар, через який проходить кожен важливий результат. У цьому ж контексті згадується й автор Claude Code: якщо дати Claude спосіб перевіряти власну роботу, це «у 2–3 рази підвищить якість виходу».

Цей акцент помітно відрізняється від типового сприйняття генеративних моделей. Більшість користувачів, як описує Марчезе, дивляться на AI як на «множник» — більше контенту за той самий час, при незмінній якості. Anthropic же вбудовує у свої процеси іншу логіку: використовувати Skills як «якісний фільтр», щоб при тій самій кількості результатів суттєво підняти їхню планку.

Два рівні перевірки: коректність проти якості

У структурі Anthropic верифікація — не однорідний процес. Окремо виділяються два різні типи перевірок, які працюють з різною природою помилок і різними критеріями успіху.

Перший тип — верифікація коректності. Це відповідь на запитання: чи все «правильно» в фактичному сенсі. Чи збігаються цифри, чи працює застосунок, чи виконав код те, що мав зробити. Це зона, де результат можна виміряти однозначно: пройти тести, запустити програму, звірити значення.

Другий тип — верифікація якості. Тут йдеться не про те, чи «працює» результат, а чи відповідає він тій планці, яку ставить собі команда або конкретний користувач. Чи достатньо це добре для публічної презентації? Чи відповідає це стилю бренду? Чи виглядає це як робота сеньйорного спеціаліста, а не швидка чернетка?

Марчезе акцентує: більшість людей думає про AI як про інструмент, що дає «вищу кількість при тій самій якості». Натомість підхід із верифікаційними skills дозволяє використовувати Claude як «підсилювач якості»: можна зберегти обсяг роботи, але зробити її суттєво кращою за рахунок того, що кожен вихідний результат проходить через виразно описаний якісний фільтр.

/verify та /run: вбудовані технічні приклади

У Claude Code частина цієї логіки зашита прямо «з коробки». У середовищі вже існують два стандартні skills, які в Anthropic відносять до технічної верифікації.

Перший — /verify. Він запускає застосунок і підтверджує, що зміна в коді справді робить те, що повинна робити. Це фронтальна перевірка коректності: не тільки синтаксису чи стилю, а реальної поведінки системи після змін.

Другий — /run. Цей skill просто запускає застосунок так, щоб Claude міг «побачити» власну роботу. У такому режимі модель не тільки генерує код або конфігурацію, а й спостерігає за тим, як усе працює в дії. Це створює контур зворотного зв’язку, у якому Claude може виявляти помилки вже на рівні виконання, а не лише логіки.

Усі ці приклади показують, що для Anthropic верифікація — це не окремий «чек-лист» для людини, а така сама автоматизована частина пайплайну, як і генерація. Claude не просто видає результат, а й бере участь у його перевірці.

Об’єктивний вихід як серце будь-якого верифікатора

Ключовий принцип, який повторюється у всій цій системі: «будь-який хороший верифікатор потребує об’єктивного виходу». Мається на увазі вихід, щодо якого можна однозначно сказати, пройшов тест чи ні — як самій моделі, так і користувачу.

Як приклад Марчезе наводить умовний /code reviewer: якщо це саме верифікаційний skill, він повинен не просто давати розгорнутий відгук, а видавати чіткий результат — «pass» або «fail». Тоді цей вихід можна використовувати як сигнал у ширшому пайплайні: пропускати зміни далі або блокувати їх до виправлення.

Подібна логіка — і для інших сценаріїв. Уявна «перевірка звіту» не просто пише коментарі, а виставляє оцінку за шкалою, наприклад «від 1 до 10». Наявність такої кількісної або бінарної оцінки дозволяє робити з результатами подальші автоматизовані дії і, головне, дозволяє Claude самому орієнтуватися в тому, чи достатньо добра його відповідь.

Цей акцент на «об’єктивному виході» суттєво відрізняє верифікаційні skills від звичайних допоміжних prompts. Йдеться не про ще один текстовий відгук, а про чітко структуроване рішення, придатне для подальшої автоматизації.

Skill-driven verification: вбудована перевірка в уже наявні навички

Попри те, що верифікатори можна будувати з нуля, Марчезе віддає перевагу іншому підходу, який він називає skill-driven verification. Ідея проста: замість окремих великих «рев’ю-скилів» варто модифікувати вже наявні skills так, щоб у них з’явився виразний верифікаційний компонент.

Наприклад, якщо існує skill для роботи з голосом бренду, його можна доповнити перевіркою: той самий /brandVoice не лише генерує текст у потрібному стилі, а й здатен сказати, чи проходить результат валідацію за критеріями бренду. Вихід у такому випадку може включати, знову ж таки, pass/fail або оцінку за шкалою.

Цей підхід зміщує фокус із «окремого етапу рев’ю» до «рев’ю як властивості кожної навички». Фактично, кожен ключовий skill перетворюється на міні-систему, де всередині вже вбудовано свій власний верифікатор. Це робить систему більш модульною: навичка одночасно генерує результат і вміє пояснити, чи відповідає він заданим критеріям.

У своєму розборі Марчезе демонструє промпти, які використовує для аудиту наявних skills — щоб виявити, які з них можна «підкрутити» у бік верифікації, а які варто будувати з нуля як спеціалізовані верифікатори. Але базовий принцип залишається тим самим: чим більше навичок мають вбудований об’єктивний тест, тим менше доводиться сподіватися на інтуїцію користувача.

Коли менеджер — це skill: верифікація як симуляція чужого судження

Окремий пласт у підході Anthropic — верифікація як симуляція експертного або менеджерського відгуку. Тут йдеться не лише про «правильно/неправильно», а про те, якою була б реакція конкретної людини зі своїм стилем мислення та очікуваннями.

Марчезе наводить приклад Амула Асара, керівника зростання в Anthropic. Той створив верифікаційний skill, який імітує фідбек його реальної менеджерки. Для цього в систему було подано дані з її публічних текстів і внутрішніх комунікацій — зокрема, Slack-обговорень. Далі щотижня цей skill запускається й «розповідає», який відгук вона дала б на зроблену за тиждень роботу.

За словами Марчезе, так формується «судження, закодоване як рецензент». До моменту, коли працівник показує щось своєму керівнику, результат уже пройшов перевірку через його «AI-двійника» — і, відповідно, наближений до того рівня, який очікується в живій взаємодії.

Сам Марчезе описує схожу практику у власній роботі. У нього є skill під назвою internal focus group, який проганяє роботу через «групу радників» і видає конкретний фідбек із позиції цих віртуальних консультантів. Оскільки формального менеджера в нього немає, така «внутрішня фокус-група» виконує роль ради директорів або борду, що регулярно оцінює його рішення як засновника.

Обидва приклади демонструють, як Anthropic та пов’язані з нею практики інтерпретують верифікацію ширше, ніж технологічний контроль якості. Це спосіб закодувати в системі вподобання, вимоги та стиль мислення конкретних людей, щоб Claude міг не просто перевіряти формальну правильність, а й узгоджувати результати із реальними очікуваннями команди.

Висновки: верифікація як ядро серйозних AI-систем

У внутрішній логіці Anthropic верифікаційні skills перестають бути «додатковою опцією» для параноїдів, які бояться помилок. Вони стають центральним шаром, через який проходить кожен важливий вихід Claude, — шаром, заради якого, на думку компанії, виправдано інвестувати повний робочий тиждень інженера.

Поділ на верифікацію коректності й якості дає можливість працювати одночасно з фактами й планкою очікувань. Вбудовані skills на кшталт /verify і /run показують, як це виглядає в технічних сценаріях, тоді як підхід skill-driven verification демонструє, як ту ж логіку можна застосувати до будь-якої навички — від брендингу до продуктових рішень.

І, нарешті, приклади з симуляцією менеджерського відгуку чи «внутрішньої фокус-групи» розкривають, що верифікація в системі Claude — це не лише про тести, а й про закодуване судження людей, з якими ви реально працюєте або на яких орієнтуєтесь.

Саме цей шар, за рахунок об’єктивних виходів і чітко описаних критеріїв, перетворює Claude з генератора текстів або коду на інструмент, здатний стабільно тримати високу планку якості. А в екосистемі Anthropic саме таку роль відводять верифікаційним skills.


Джерело

YouTube: How Anthropic Employees ACTUALLY Use Claude Skills

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті