OpenAI опублікувала короткий кейс із Databricks, у якому демонструється, як GPT‑5.5 у складі Codex стає новим еталоном для агентних систем і складних робочих процесів з документами.
![]()
Стрибок у якості: менше помилок, більше результатів
У так званому agent harness‑сценарії GPT‑5.5 показує 46% зниження кількості помилок порівняно з попередньою версією GPT‑5.4. Це не просто покращення на відсотки — у Databricks описують його як «step size function change», тобто різкий, якісно новий стрибок.
Ключові моменти:
- GPT‑5.5 — єдина модель в agent harness‑налаштуванні, яка перевищує 50% на відповідному бенчмарку.
- Покращення фіксуються не лише в синтетичних тестах, а й у реалістичних, наскрізних сценаріях для підприємств.
- У внутрішніх OfficeQA‑оцінках Codex з GPT‑5.5 демонструє ті самі 46% зниження помилок, що підтверджує стабільність результатів.
Фокус тут — на end‑to‑end робочих процесах, де модель не просто генерує текст, а послідовно виконує низку кроків, приймає проміжні рішення й працює як «агент» у складній системі.
Робота з «брудними» документами: роль multi‑agent‑підходу
Один із типових сценаріїв для Databricks — обробка «дуже неохайних» документів, з якими часто приходять корпоративні клієнти. Це можуть бути:
- неоднорідні формати;
- змішані структури;
- документи, які важко розпарсити стандартними інструментами.
Щоб упоратися з такими даними, використовується:
- кастомний парсинг — спеціально налаштовані процедури розбору;
- multi‑agent‑архітектури — кілька агентів, які працюють разом у межах одного agent harness, розподіляючи завдання (наприклад, один агент відповідає за парсинг, інший — за інтерпретацію, третій — за формування відповіді чи дій).
GPT‑5.5 у складі Codex виявляється особливо ефективним саме в таких багатокрокових, агентних робочих процесах. Модель краще тримає контекст, послідовно виконує кроки й знижує кількість помилок на кожному етапі, що критично для корпоративних сценаріїв.
Codex з GPT‑5.5 як новий SOTA для агентів
У Databricks фіксують, що Codex з GPT‑5.5 наразі є state of the art серед доступних агентів і моделей у їхніх тестах. Це означає:
- лідерство за точністю в agent harness‑бенчмарках;
- кращу стійкість у складних, реалістичних сценаріях;
- помітне скорочення помилок у наскрізних бізнес‑процесах, зокрема в OfficeQA‑задачах.
Для підприємств це сигнал, що агентні системи на основі GPT‑5.5 вже виходять за межі експериментів і можуть використовуватися як основа для реальних робочих процесів: від обробки документів до складних внутрішніх сервісів запитань‑відповідей.
Джерело
Відео OpenAI: GPT-5.5 is SOTA for Databricks


