Як навчитись тестувати AI-скіли: від ручних перевірок до системних evals

5 Травня 2026

На конференції AI Engineer AI‑інженер Supabase Педру Родрігеш показує, як компанія перетворює абстрактну ідею «скілів» для агентів на керований інженерний процес. Supabase — це open source backend‑as‑a‑service на Postgres, який активно експериментує з агентами й інструментами на кшталт MCP. У цьому воркшопі Родрігеш фокусується не стільки на тому, як писати скіли, скільки на тому, як їх системно тестувати: спочатку вручну, а потім за допомогою evals і платформи Braintrust. Цей підхід він називає «eval‑driven development» для агентів.

person holding green paper

Від «Skill Issue» до «Level Up Your Skills»: чому назва має значення

У програмі конференції цей воркшоп спочатку значився під назвою «Skill Issue», але в останній момент отримав м’якший брендинг — «Level Up Your Skills». Провокативний лейбл «Skill Issue» Родрігеш переніс на окремий кейноут наступного дня, де обіцяє показати, як ці ж патерни скілів та evals поводяться вже в продакшн‑системах Supabase.

Розділення не випадкове. Воркшоп — це лабораторія: учасники вчаться писати скіли, тестувати їх вручну, а потім переводити все це в автоматизовані оцінки. Кейноут — це вже пост‑мортем: що з цього реально спрацювало в бойових умовах, а що виявилося тим самим «skill issue».

Таким чином, поточна сесія — це свідомо поставлений пролог до розмови про продакшн. І в центрі цього прологу — цикл оцінки скілів, який має замінити інтуїцію й «магію LLM» на вимірюваний процес.

Від markdown до поведінки агента: навіщо взагалі тестувати скіли

У Supabase скіл — це не абстрактна «здатність» моделі, а цілком конкретний артефакт: папка з основним файлом skill.md і додатковими референсами та скриптами. Усередині — інструкції, довідкові матеріали, сценарії дій, які мають зробити агента кориснішим у реальних робочих процесах.

На перший погляд це просто markdown. Звідси й базове питання, яке Родрігеш ставить аудиторії: як тестувати щось, що виглядає як текстовий файл?

У класичній розробці відповідь очевидна: є юніт‑тести, інтеграційні тести, end‑to‑end. Але з агентами й LLM усе складніше. Вихід моделі — недетермінований, промптинг і контекст впливають на результат, а поведінка агента може змінюватися від запуску до запуску навіть при однаковому інпуті.

Саме тут у гру вступають evals — спеціальні оцінки, які не намагаються зробити тест «жорстко детермінованим», а натомість фіксують сценарій, очікувану поведінку й аналізують не лише фінальний текст, а й увесь ланцюжок міркувань і викликів інструментів.

У воркшопі учасники проходять шлях поетапно. Спочатку вони пишуть скіл і дивляться, як він змінює поведінку агента в ручному режимі. Потім ті самі сценарії переносять в evals, щоб перетворити разові експерименти на повторюваний, вимірюваний цикл.

Як працюють evals: тестування недетермінованої поведінки

Родрігеш описує evals як спосіб тестувати не лише «що сказав агент», а й «як він до цього дійшов». Структурно eval нагадує класичний тест: є вхідні дані й очікуваний результат. Але між ними — цілий простір для аналізу.

У типовому eval‑сценарії задається інпут, який моделює реальне завдання для агента. Далі фіксується очікувана поведінка: які інструменти мають бути викликані, які кроки міркування є бажаними, які проміжні дії вважаються коректними. Через те, що LLM‑відповіді варіативні, фокус зміщується з точного збігу тексту на відповідність патерну поведінки.

Оцінюються кілька рівнів:

По‑перше, сам факт досягнення цілі: чи вирішив агент задачу, чи отримав потрібні дані, чи виконав потрібну дію.

По‑друге, траєкторія: які інструменти він викликав, у якій послідовності, чи не пропустив критичний крок, чи не зробив зайвих, потенційно небезпечних дій.

По‑третє, міркування: наскільки логічним був ланцюжок reasoning, чи не було очевидних помилок або «галюцинацій» у проміжних висновках.

Такий підхід дозволяє працювати з недетермінованістю: навіть якщо конкретні формулювання відповідей змінюються, можна порівнювати скіли між собою за тим, наскільки стабільно вони спрямовують агента до правильної поведінки.

Фреймворк OpenAI: цикл оцінки скілів як інженерна практика

Методологічною опорою для воркшопу стає блог‑пост OpenAI «Systematically evaluate agent skills». У ньому пропонується рамка, яка перетворює роботу зі скілами на повторюваний інженерний цикл. Родрігеш адаптує цю рамку до контексту Supabase і формулює її як простий, але дисциплінований loop:

Спочатку визначаються метрики. Потрібно чітко відповісти, що означає «хороший» скіл у конкретному продукті. Чи має він швидше приводити агента до документації? Чи навпаки — інкапсулювати конкретний робочий процес? Чи зменшувати кількість помилкових викликів інструментів? Без цього кроку будь‑які подальші вимірювання втрачають сенс.

Далі створюється сам скіл. Пишеться skill.md з обов’язковими полями name і description у front matter, додаються референс‑файли й, за потреби, скрипти. На цьому етапі скіл — це гіпотеза: набір інструкцій і контенту, який, як очікується, змінить поведінку агента в бажаний бік.

Після цього запускаються evals. Спочатку це може бути ручне тестування: інженер проганяє кілька сценаріїв у чаті з агентом і дивиться, як той використовує новий скіл. Потім ці ж сценарії формалізуються у вигляді eval‑кейсів: фіксуються інпути, очікувані патерни поведінки, бажані інструменти.

Наступний крок — градація поведінки. На основі зібраних запусків оцінюється, наскільки агент відповідає визначеним раніше метрикам. Тут важливо не обмежуватися бінарним «пройшов/не пройшов», а дивитися на розподіл результатів, частоту помилок, типові failure modes.

І нарешті — ітерація. Скіл доопрацьовується: змінюються формулювання, додаються або видаляються референси, коригуються скрипти. Потім цикл повторюється: нова версія скіла проганяється через ті самі evals, і можна порівняти, чи стало краще, гірше чи нічого не змінилося.

У Supabase цей loop подається як аналог test‑driven development, але для агентів. Замість того щоб «на око» вирішувати, чи допоміг новий скіл, інженери спираються на стабільний набір eval‑сценаріїв і метрик.

Braintrust як інфраструктура для evals: від разових запусків до системи

Щоб цей цикл працював не лише на слайдах, потрібна інфраструктура, яка вміє збирати, зберігати й порівнювати результати evals. У воркшопі Родрігеш використовує Braintrust — платформу, яка спеціалізується саме на систематичному запуску evals і спостереженні за поведінкою агентів.

Braintrust у цьому контексті виконує кілька ролей.

По‑перше, це запускник. Платформа дозволяє проганяти один і той самий набір eval‑сценаріїв для різних версій скілів або агентів, зберігаючи всі параметри запуску. Це критично важливо, коли потрібно порівняти, як невелика зміна в skill.md вплинула на поведінку.

По‑друге, це система збору трейсів. Braintrust фіксує не лише фінальні відповіді, а й reasoning‑ланцюжки, виклики інструментів, проміжні стани. Це дає змогу розбиратися не тільки з тим, що пішло не так, а й чому саме агент зробив помилковий крок.

По‑третє, це інструмент спостережуваності. Родрігеш порівнює Braintrust з observability‑системами для класичних сервісів: замість логів і метрик HTTP‑запитів тут — логи думок агента й викликів MCP‑інструментів. Для інженерів це спосіб бачити, як агент поводиться в контрольованих сценаріях, перш ніж випускати його в продакшн.

У поєднанні з eval‑циклом Braintrust перетворює роботу зі скілами на процес, де кожна зміна може бути виміряна. Це особливо важливо в середовищі на кшталт Supabase, де агенти мають доступ до потужних MCP‑інструментів і можуть виконувати реальні дії в локальних проєктах.

Від ручного тестування до автоматизації: як виглядає перехід

Практичний маршрут, який пропонується учасникам воркшопу, починається з максимально простого кроку: написати скіл і подивитися, що зміниться в поведінці агента в ручному режимі. Це дозволяє відчути, як навіть невеликий шматок інструкцій у skill.md може переналаштувати пріоритети агента, змінити те, як він читає документацію чи викликає інструменти.

На цьому етапі інженер фактично виступає «живим eval‑раннером»: задає питання, спостерігає за відповідями, інтуїтивно оцінює, чи став агент кориснішим. Але такий підхід не масштабується. Неможливо вручну проганяти десятки сценаріїв після кожної зміни скіла, особливо коли скілів багато й вони взаємодіють між собою.

Тому наступний крок — формалізація цих ручних сценаріїв у вигляді evals. Кожен «ручний» діалог перетворюється на записаний кейс: інпут, очікувані інструменти, бажаний патерн reasoning. Далі ці кейси запускаються автоматично через Braintrust, і кожна нова версія скіла проходить через той самий набір випробувань.

Таким чином, перехід від ручного тестування до системних evals не відбувається стрибком. Це радше поступова кристалізація: спочатку інженер експериментує в чаті, потім найцінніші сценарії переносяться в код, а далі вже інфраструктура бере на себе рутину.

Навіщо все це Supabase: підготовка до продакшн‑кейноуту

Хоча воркшоп зосереджений на методології, він чітко позиціонується як підготовка до наступного кроку — окремого кейноуту, де Родрігеш обіцяє показати, як ці патерни працюють у реальних продуктах Supabase.

У компанії агенти мають допомагати розробникам працювати з екосистемою Supabase: від бази даних на Postgres до інструментів міграцій, CLI й MCP‑серверів із десятками доступних тулів. Скіли в цьому контексті — «секретний соус», який має зробити агентів не просто «розумними», а передбачувано корисними в конкретних робочих процесах.

Щоб це стало можливим, потрібен саме той цикл, який демонструється на воркшопі: чіткі метрики, формалізовані evals, інфраструктура на кшталт Braintrust і готовність ітеруватися, визнаючи, що не кожен новий скіл автоматично покращує агента. Іноді зміни нічого не дають, іноді погіршують ситуацію, і лише системні evals дозволяють це побачити до того, як агент потрапить до користувачів.

Тому «Level Up Your Skills» — це не просто навчальна сесія з написання markdown‑файлів. Це спроба закласти в спільноту AI‑інженерів практику, де скіли для агентів розробляються й перевіряються з тією ж дисципліною, з якою тестуються звичайні сервіси.

Висновок: eval‑driven development як новий стандарт для агентів

Поява скілів, MCP‑інструментів і агентів, здатних працювати з реальними системами на кшталт Supabase, створює новий клас проблем: як гарантувати, що ці агенти поводяться очікувано, не ламають робочі процеси й дійсно допомагають розробникам.

Відповідь, яку пропонує Педру Родрігеш, спираючись на фреймворк OpenAI та інфраструктуру Braintrust, — це системний цикл оцінки скілів. Визначити метрики, створити скіл, прогнати evals, оцінити поведінку, ітерувати. Почати з ручних експериментів, але якнайшвидше перетворити їх на автоматизовані сценарії.

У такій моделі скіл перестає бути «магічним промптом» і стає інженерним артефактом, для якого існують чіткі критерії якості й зрозумілий шлях покращення. А агенти — з «чорної скриньки» перетворюються на системи, поведінку яких можна спостерігати, вимірювати й, зрештою, робити «actually good» у реальних продуктах.

Джерело

https://www.youtube.com/watch?v=GmAQKINjv1E

131

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Коментуйте, будь-ласка!

Будь ласка введіть ваше ім'я

Ви ввели некорректний Email

Ваш Email

Як навчитись тестувати AI-скіли: від ручних перевірок до системних evals

Від «Skill Issue» до «Level Up Your Skills»: чому назва має значення

Від markdown до поведінки агента: навіщо взагалі тестувати скіли

Як працюють evals: тестування недетермінованої поведінки

Фреймворк OpenAI: цикл оцінки скілів як інженерна практика

Braintrust як інфраструктура для evals: від разових запусків до системи

Від ручного тестування до автоматизації: як виглядає перехід

Навіщо все це Supabase: підготовка до продакшн‑кейноуту

Висновок: eval‑driven development як новий стандарт для агентів

Джерело

iPhone 15 Pro отримає дизайн як у Apple Watch

Хто такий ISoftStone? Таємнича фірма, що обганяє Huawei, HP та Xiaomi

Кому належить дорогоцінна вода Місяця?

Google навчився на 35% ефективніше стискати картинки в JPEG

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Vodafone запускає 5G у міжнародному роумінгу

200 грн на місяць: Vodafone запустив акцію для клієнтів 55+

Vodafone інвестував у критичну інфраструктуру та технології більше 24 млрд грн

5G запустили на Головному залізничному вокзалі Львова

Vodafone оновив лінійку бізнес-тарифів у 2026 році

Статті

П’ять телефонів, що поміщаються в долоні: найкращі компактні смартфони 2026 року

Класичний Google зник. Пошуковий очікує найбільша зміна за 25 років

П’ять років із мозковим імплантатом: як технологія повертає контроль над життям

Навушники з персональним налаштуванням звуку: чому це важливо для вашого слуху

Використання порад зі зваблення людей покращує спілкування з ШІ

Вчені придумали, як убезпечити носорогів від браконьєрства. Носорогів роблять радіоактивними

Надання дозволів Android для додатків на кшталт доступу до контактів чи SMS загрожує крадіжкою даних

ПОРАДИ

5 налаштувань для зручнішого Google Maps

Як змусити штучний інтелект припинити вигадувати факти та змусити його посилатися на джерела

Android зберігає всі ваші сповіщення 24 години, навіть ті, що ви стерли. Як їх подивитися?

СТАТТІ

П’ять телефонів, що поміщаються в долоні: найкращі компактні смартфони 2026 року

Класичний Google зник. Пошуковий очікує найбільша зміна за 25 років

П’ять років із мозковим імплантатом: як технологія повертає контроль над життям

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Як навчитись тестувати AI-скіли: від ручних перевірок до системних evals

Від «Skill Issue» до «Level Up Your Skills»: чому назва має значення

Від markdown до поведінки агента: навіщо взагалі тестувати скіли

Як працюють evals: тестування недетермінованої поведінки

Фреймворк OpenAI: цикл оцінки скілів як інженерна практика

Braintrust як інфраструктура для evals: від разових запусків до системи

Від ручного тестування до автоматизації: як виглядає перехід

Навіщо все це Supabase: підготовка до продакшн‑кейноуту

Висновок: eval‑driven development як новий стандарт для агентів

Джерело

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ