Середа, 3 Червня, 2026

Microsoft представила ASSERT для тестування поведінки ШІ

Дослідники штучного інтелекту та лабораторії суттєво просунулися у створенні методик оцінювання моделей ШІ — від безпеки й відповідності до «підлесливості» та узгодженості з вимогами. Але компанії та розробники зіткнулися з новою, більш вузькою потребою: переконатися, що їхня система ШІ поводиться саме так, як потрібно для конкретного продукту чи сервісу.

Microsoft представила ASSERT для тестування поведінки ШІ

Щоб спростити цей процес тестування, Microsoft у вівторок представила ASSERT — Adaptive Spec-driven Scoring for Evaluation and Regression Testing.

Як заявляє Microsoft, це фреймворк із відкритим кодом, який спрощує оцінювання специфічної для застосунку поведінки ШІ, використовуючи сам ШІ для перетворення загальних описів цілей, політик чи очікуваної поведінки природною мовою на детальні, оцінювані тести, які можна досліджувати.

ASSERT приймає текстові описи очікуваної поведінки моделі ШІ та політик, перетворює їх на структурований набір прийнятних і неприйнятних сценаріїв, генерує проблемні ситуації й тестові кейси, запускає їх на цільовій системі та виставляє оцінки. Він також може записувати шляхи, якими йде система ШІ, включно з проміжними діями та викликами інструментів, щоб розробники могли проаналізувати, де саме виникають збої.

За потреби розробники можуть додавати контекст системи, інструменти та обмеження, щоб ще точніше налаштувати охоплення оцінювання.

Наприклад, розробник може задати, що агент ШІ для дослідження документів не повинен надсилати електронні листи людям за межами компанії, має обмежувати доступ до конфіденційної інформації лише рівнем C-level та надавати лаконічні підсумки з урахуванням попереднього контексту. ASSERT використає ці правила для генерації тестів, які перевірятимуть, чи система й надалі дотримується цих вимог.

За словами Microsoft, фреймворк закриває прогалину, яку не охоплюють ширші, більш загальні оцінювання, коли від моделей ШІ очікується поведінка, що формується контекстом, політиками та інструментами конкретного застосунку або продукту.

“Одне з того, що ми зрозуміли, — це те, що оцінювання є абсолютно критичним для ухвалення правильних рішень”, — сказала Сара Бьорд (Sarah Bird), директорка з продукту з відповідального ШІ в Microsoft. — “Якщо ви не розумієте поведінку системи ШІ, дуже важко зрозуміти, чи відповідає вона стандартам вашої організації… Ми з’ясували, що якщо ви справді хочете мати надійну систему, слід оцінювати набагато більше вимірів, специфічних саме для застосунку”.

Бьорд додала, що ASSERT можна використовувати для оцінювання систем як під час розробки, так і після розгортання, зокрема для безперервного моніторингу.

Джерело

TechCrunch

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті