Microsoft представила ASSERT для тестування поведінки ШІ

3 Червня 2026

Дослідники штучного інтелекту та лабораторії суттєво просунулися у створенні методик оцінювання моделей ШІ — від безпеки й відповідності до «підлесливості» та узгодженості з вимогами. Але компанії та розробники зіткнулися з новою, більш вузькою потребою: переконатися, що їхня система ШІ поводиться саме так, як потрібно для конкретного продукту чи сервісу.

Microsoft представила ASSERT для тестування поведінки ШІ

Щоб спростити цей процес тестування, Microsoft у вівторок представила ASSERT — Adaptive Spec-driven Scoring for Evaluation and Regression Testing.

Як заявляє Microsoft, це фреймворк із відкритим кодом, який спрощує оцінювання специфічної для застосунку поведінки ШІ, використовуючи сам ШІ для перетворення загальних описів цілей, політик чи очікуваної поведінки природною мовою на детальні, оцінювані тести, які можна досліджувати.

ASSERT приймає текстові описи очікуваної поведінки моделі ШІ та політик, перетворює їх на структурований набір прийнятних і неприйнятних сценаріїв, генерує проблемні ситуації й тестові кейси, запускає їх на цільовій системі та виставляє оцінки. Він також може записувати шляхи, якими йде система ШІ, включно з проміжними діями та викликами інструментів, щоб розробники могли проаналізувати, де саме виникають збої.

За потреби розробники можуть додавати контекст системи, інструменти та обмеження, щоб ще точніше налаштувати охоплення оцінювання.

Наприклад, розробник може задати, що агент ШІ для дослідження документів не повинен надсилати електронні листи людям за межами компанії, має обмежувати доступ до конфіденційної інформації лише рівнем C-level та надавати лаконічні підсумки з урахуванням попереднього контексту. ASSERT використає ці правила для генерації тестів, які перевірятимуть, чи система й надалі дотримується цих вимог.

За словами Microsoft, фреймворк закриває прогалину, яку не охоплюють ширші, більш загальні оцінювання, коли від моделей ШІ очікується поведінка, що формується контекстом, політиками та інструментами конкретного застосунку або продукту.

“Одне з того, що ми зрозуміли, — це те, що оцінювання є абсолютно критичним для ухвалення правильних рішень”, — сказала Сара Бьорд (Sarah Bird), директорка з продукту з відповідального ШІ в Microsoft. — “Якщо ви не розумієте поведінку системи ШІ, дуже важко зрозуміти, чи відповідає вона стандартам вашої організації… Ми з’ясували, що якщо ви справді хочете мати надійну систему, слід оцінювати набагато більше вимірів, специфічних саме для застосунку”.

Бьорд додала, що ASSERT можна використовувати для оцінювання систем як під час розробки, так і після розгортання, зокрема для безперервного моніторингу.

Джерело

TechCrunch

155

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Коментуйте, будь-ласка!

Будь ласка введіть ваше ім'я

Ви ввели некорректний Email

Ваш Email

Microsoft представила ASSERT для тестування поведінки ШІ

Джерело

Стартап Thea Energy залучив 100 мільйонів доларів на будівництво термоядерного реактора з налаштовуваними магнітами

Як дізнатися мінімальну та максимальну напругу телефону. Ці два числа можуть розповісти багато про акумулятор

Смартфони Windows Phone 7.5 та 8.0 втратять «живі плитки», повідомлення та функцію «Знайти мій телефон»

Робот на закуску: вчені створюють роботизовану їжу

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

200 тисяч клієнтів протестували 5G у Харкові

Vodafone Україна побудує надсучасний підземний дата-центр

Vodafone Україна залучив €30 млн фінансування для розвитку мережі у співпраці з Nokia, ING та Finnvera

Інтернет Vodafone, що працює без електрики, охопив 2 млн домогосподарств

Vodafone додав сонячну генерацію на перші 100 базових станцій

Статті

П’ять популярних аксесуарів для смартфонів, що лише марнують гроші та створюють ілюзію безпеки

AI-відновлення фото підміняє обличчя родичів, знищуючи справжню сімейну історію

Як виходить, що ви обігнали когось на дорозі, а він знову з’являється попереду: вчені пояснили невидиму силу статистики

2026 рік: хай-тек на межі краху, мільярди зникають, а користувачі стають жертвами

Чи може штучний інтелект генерувати нові ідеї?

Чи можна зупинити розплавлення ядерного реактора?

Здається, пари почали використовувати чат-ботів як заміну реальним стосункам

ПОРАДИ

Як на iPhone увімкнкти макрозйомку для фокусування на відстані від двох сантиметрів

Чому iPhone робить екран тьмянішим

Як оновити iPad через Finder на комп’ютері Mac при невдалому встановленні iPadOS

СТАТТІ

П’ять популярних аксесуарів для смартфонів, що лише марнують гроші та створюють ілюзію безпеки

AI-відновлення фото підміняє обличчя родичів, знищуючи справжню сімейну історію

Як виходить, що ви обігнали когось на дорозі, а він знову з’являється попереду: вчені пояснили невидиму силу статистики

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Microsoft представила ASSERT для тестування поведінки ШІ

Джерело

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ