ШІ-агенти стають дедалі складнішими: вони еволюціонують від простих відповідей на запитання до автономного виконання багатокрокових, комплексних завдань.

Але перш ніж довірити таким агентам бронювання подорожей чи проведення фінансового аналізу від імені користувачів, розробники моделей і стартапи, які їх створюють, хочуть бути впевненими, що вони працюють надійно в широкому спектрі сценаріїв.
Лаби зі штучного інтелекту часто використовують бенчмарки, щоб продемонструвати можливості своїх моделей. Однак, навіть високий результат на тестах, орієнтованих на агентів, ще не доводить, що ШІ зможе коректно виконувати різні складні завдання у реальному світі.
Стартап Patronus AI, заснований у 2023 році колишніми дослідниками Meta AI Анадом Каннаппаном (Anand Kannappan) та Ребекою Цян (Rebecca Qian), допомагає розробникам моделей і компаніям тонко налаштовувати ці системи, створюючи симульовані цифрові середовища для оцінки роботи агентів.
Стартап із Сан-Франциско, схоже, вирішує справді важливу проблему. За словами Гленна Соломона, керівного директора фонду Notable Capital, практично кожна провідна лабораторія з ШІ та багато нових стартапів уже стали клієнтами Patronus, а попит на його симульовані середовища він описує як майже «ненаситний».
За останній рік виручка Patronus зросла у 15 разів, що суттєво підживило інтерес інвесторів. У четвер компанія оголосила про раунд Series B обсягом $50 млн, який очолив фонд Greenfield Partners, за участі Notable Capital, Lightspeed, Datadog та Samsung. Загальний обсяг залученого фінансування компанії сягнув $70 млн.
Patronus використовує так звані «моделі цифрових світів», щоб створювати копії вебсайтів та внутрішніх систем. У цих середовищах агенти проходять стрес-тести після навчання за допомогою підкріплювального навчання (reinforcement learning), яке поетапно винагороджує успішне виконання завдання та штрафує за помилки.
Лаби ШІ високо цінують такі цифрові симуляції, оскільки вони дають агентам змогу випробувати різні, подекуди непередбачувані, сценарії. Компанія порівнює свій підхід із тим, як Waymo навчала автономні автомобілі, спочатку створюючи синтетичні світи для тестування машин на рідкісні небезпеки — наприклад, екстремальну погоду чи дитину, яка вибігла за м’ячем на дорогу.
Різниця зі ШІ-агентами в тому, що вони схильні шукати «шорткати» — легкі обхідні шляхи, через що завдання в результаті виконуються некоректно. «Patronus дуже добре виявляє такі «хаки» й забезпечує, щоб моделі несли за них відповідальність», — каже Соломон.
Наразі Patronus пропонує свої симульовані цифрові світи для задач у сфері розробки ПЗ та фінансів, але це лише початок, за словами Каннаппана.
«Сьогодні ми дуже сфокусовані на задачах, які можна верифікувати, тобто на тих, де результат можна відразу перевірити й підтвердити. Але є безліч сфер, де це або неможливо, або надзвичайно складно», — пояснює він.
Те, що процеси піддаються верифікації, не означає, що вони прості. «Ми хочемо створити середовище, в якому агент зможе працювати 10 годин, 10 днів або навіть 10 тижнів», — додає Каннаппан.
Щодо конкурентів, у Patronus вважають, що головним чином змагаються з внутрішніми командами в лабораторіях з ШІ, які вже займаються оцінкою поведінки агентів. І хоча компанії на кшталт Mercor та Surge допомагають розробникам моделей із підкріплювальним навчанням, Patronus працює інакше — вона оцінює поведінку агентів без будь-якої участі людини.


