Компанія Box, платформа для роботи з неструктурованим контентом, поділилася своїм досвідом впровадження штучного інтелекту (ШІ) у 2023 році, зокрема у сфері екстракції структурованих даних із неструктурованих документів. Бен Касс, технічний директор Box, розповів про виклики, з якими зіткнулася компанія, і як перехід до агентної архітектури допоміг їх подолати.

Box обслуговує понад 115 тисяч корпоративних клієнтів, включно з двома третинами компаній зі списку Fortune 500. Основною метою компанії є забезпечення безпечного та ефективного управління контентом на підприємствах, де більшість даних — неструктуровані, наприклад, документи, контракти чи проєктні пропозиції.
До появи генеративного ШІ автоматизація обробки неструктурованих даних була складною та затратною. Сфера інтелектуального вилучення даних (IDP) вимагала спеціалізованих моделей, великих обсягів навчальних даних і часто була крихкою у застосуванні.
Виклики традиційного підходу до екстракції даних
Перші спроби Box застосувати великі мовні моделі (LLM) для вилучення даних полягали у простому запитанні моделі: “Витягни ці поля з документа”. Це дало значне покращення у порівнянні з попередніми методами, оскільки генеративний ШІ добре розуміє контекст і нюанси тексту.
«Стандартна модель ШІ могла перевершити навіть найкращі спеціалізовані моделі, які ми бачили раніше», — каже Бен Касс.
Однак із зростанням складності документів та обсягу полів з’явилися проблеми. Наприклад, 300-сторінкові договори з сотнями полів, багатомовність, помилки OCR (оптичного розпізнавання тексту) і обмеження уваги моделей призводили до зниження точності.
«Якщо дати моделі 100 сторінок і 100 складних полів, вона починає втрачати контекст, і це зрозуміло, бо люди теж так роблять», — пояснює Касс.
Крім того, традиційні методи оцінки точності, як-от показники впевненості, не завжди були корисними. Великі мовні моделі не завжди могли адекватно оцінити власну точність, що ускладнювало довіру до результатів.
Перехід до агентної архітектури
Вирішенням проблем стала ідея застосування агентної архітектури — підходу, де ШІ-агенти виконують інструкції, мають доступ до інструментів, пам’ять і можуть послідовно виконувати складні завдання, оркеструючи різні кроки.
«Агентна архітектура дозволяє створювати інтелектуальні робочі процеси, де ШІ може планувати, перевіряти і коригувати свої дії», — зазначає технічний директор Box.
Box розробила систему, де поля документа групуються логічно, а агент виконує багатоетапний процес вилучення та перевірки даних, використовуючи кілька моделей і механізми голосування для підвищення точності. Якщо результат викликає сумніви, агент може повторно оцінити та скоригувати відповідь.
Цей підхід дозволив Box не лише підвищити якість екстракції даних, а й розширити можливості глибоких досліджень по контенту клієнтів, що раніше було недосяжним.
Висновки та рекомендації
За словами Бена Касса, агентна архітектура є чистим і природним способом побудови інтелектуальних систем, особливо для складних завдань, і її варто впроваджувати на ранніх етапах розвитку ШІ-рішень.
«Якщо є ймовірність, що набір моделей ШІ може допомогти розв’язати проблему, варто будувати агентну архітектуру з самого початку», — радить Касс.
Box також уникає тонкого налаштування моделей (fine-tuning), віддаючи перевагу промптам і агентній взаємодії, що дозволяє працювати з різними провайдерами моделей і швидко адаптуватися до їх оновлень.
Компанія пропонує API для роботи зі своїми агентами, що дозволяє інтегрувати агентні функції у корпоративні процеси клієнтів.
Таким чином, досвід Box демонструє, що агентний підхід до ШІ може стати ключем до ефективної автоматизації обробки складних неструктурованих даних у великих підприємствах.
Джерело: Youtube: Ai-Engineer