Чому складним AI-агентам замало просто чату

23 Квітня 2026

У юридичній галузі та інших «вертикалях» штучний інтелект уже вміє виконувати довгі, багатокрокові завдання — від аналізу контрактів до підготовки документів. Але досвід роботи з такими агентами часто розчаровує: вони «думають» пів години, повертають результат, а потім руйнують усе при найменшій правці. CTO стартапу Legora Якоб Лаурітцен на конференції AI Engineer пояснив, чому проблема не в моделях, а в тому, як ми з ними взаємодіємо — і чому чат‑інтерфейсу для цього вже недостатньо.

Four men gathered around a whiteboard with sticky notes.

Нові «економіки виробництва»: робота дешева, планування й рев’ю — ні

За останні 6–12 місяців змінилася сама структура роботи з AI‑системами:

Виконання роботи стало дешевим. Моделі легко пишуть код, генерують тексти, аналізують документи.
Вузьким місцем стали планування та перевірка. Потрібно:
зібрати вимоги й специфікації;
спланувати кроки;
ретельно перевірити результат.

У розробці це нагадує рев’ю величезних pull request’ів: технічно можливо, але болісно й неефективно. Ідея «нехай агент перевіряє сам себе» виглядає привабливо, але працює далеко не завжди — особливо там, де немає очевидного критерію правильності.

«Правило верифікатора» і чому не всі задачі піддаються агентам

Корисна рамка для розуміння можливостей агентів — правило верифікатора (verifier’s rule), сформульоване Джейсоном (прізвище в доповіді не уточнюється):

Якщо задачу можна розв’язати і її легко перевірити, її розв’яже AI.

Спочатку це правило застосовували до базових моделей, але воно добре описує й агентів: якщо можна чітко перевірити результат, агент можна ганяти в циклі «зробив — перевірив — виправив», доки він не досягне потрібної якості.

Проблема в тому, що в реальних вертикалях задачі розташовані на різних ділянках спектра «легко/важко перевірити».

Приклад: юридична галузь

Перевірка визначень у контракті
Легко верифікувати: чи всі терміни визначені, чи всі визначення використовуються. Це добре піддається автоматизації.
Написання контракту загалом
Згенерувати текст — нескладно. Але перевірити, чи «правильний» цей контракт, часто можна лише в суді, коли суддя фактично виступає остаточним верифікатором. Це робить задачу дуже складною для повної автоматизації.
Стратегія судового спору (літигації)
Якщо п’ять юристів дадуть п’ять різних стратегій, немає об’єктивної «єдино правильної» відповіді. Верифікація тут майже неможлива.

Схожа ситуація й у розробці: написати функцію з тестами — просто, а от створити успішний consumer‑додаток і довести, що він «правильний», — зовсім інший рівень складності.

Звідси ключовий висновок: людей потрібно залучати там, де верифікація складна або суб’єктивна, а агентам віддавати те, що можна чітко перевірити.

Довіра й контроль: як правильно ділити роботу між людьми та агентами

Для ефективної співпраці людини й агента важливі дві осі:

Довіра (trust) — скільки роботи можна не перевіряти.
Контроль (control) — наскільки ефективно людина може «вшити» свій досвід і судження в роботу агента.

Як підвищити довіру до агента

Зробити задачу більш верифікованою
У розробці:
- дати агенту доступ до браузера;
- використовувати TDD (спочатку тести, потім реалізація).
Тоді «реалізувати фічу» перетворюється на задачу «зробити так, щоб усі тести проходили», а це вже легко перевірити.
У фінансах чи праві можна шукати проксі‑метрики верифікації.
Наприклад, для контрактів:
- взяти «золоті» (еталонні) контракти, які добре працювали в минулому;
- порівнювати новий контракт із цими зразками;
- будувати тести на схожість структури, формулювань, ключових положень.
Це не ідеальна верифікація, але корисний наближення, яке суттєво підвищує якість роботи агента.
Декомпозувати задачу

Замість «написати контракт» — розбити роботу на підзадачі:

людина вирішує:
- профіль ризику;
- вибір прецедентних документів;
- переговорну позицію;
агент виконує те, що легко перевірити:
- форматування;
- уніфікація стилю;
- «лінтинг» визначень (чи всі терміни визначені й коректно використані).

Так людина зберігає контроль над критичними рішеннями, а агент бере на себе рутинну, але формалізовану роботу.

Встановити guardrails (обмеження)

Це спосіб підвищити довіру, обмеживши можливості агента:

можна редагувати лише конкретні файли;
читати лише з певних директорій;
шукати інформацію лише на визначених сайтах.

Чим менше свободи для «дивних дій», тим легше довіряти системі.

Приклад із розробки: у режимі низької довіри агент запитує дозвіл на кожну дію (як це роблять деякі інструменти на кшталт Claude Code), що робить його майже непридатним для реальної роботи. У режимі високої довіри — «YOLO‑режим», коли агент може робити все, включно з ризикованими операціями (на кшталт видалення прод‑бази), і це вже питання організації безпеки.

Як підвищити контроль над агентом

Складну роботу агента можна уявити як дерево або DAG завдань:

корінь: загальне завдання (наприклад, «підготувати звіт за пакетом трудових контрактів»);
гілки: дослідження організації, аналіз контрактів, перевірка окремих типів положень;
листя: конкретні перевірки, витяг фактів, формулювання висновків.

1. Планування: корисно, але недостатньо

На етапі планування агент пропонує кроки: що дослідити, які пункти перевірити, як структурувати роботу. Людина може:

скоригувати план;
додати чи прибрати кроки;
уточнити, на що звернути увагу.

Це дає більше контролю, ніж повна «чорна скринька», але має суттєві мінуси:

щоб якісно скоригувати план, людині все одно потрібно глибоко зануритися в задачу;
агент не знає наперед усіх нюансів (наприклад, спеціальної умови в одному з контрактів), тож план неминуче буде неповним;
після узгодження плану агент часто «зникає» до фінального результату — як колега, який один раз показав план роботи, а потім повернувся лише з готовим документом.

Тому планування — корисний, але не достатній механізм контролю.

2. Skills: «вшивання» людського досвіду в вузли роботи

Більш потужний підхід — skills (навички), тобто формалізовані способи виконання окремих підзадач. Наприклад:

«як перевіряти пункт про конфіденційність»;
«як враховувати специфічний пункт законодавства ЄС у розділі про розірвання договору».

Переваги skills:

локалізація експертизи: кожен вузол дерева роботи знає, як поводитися в типовій і в особливій ситуації;
контингенції: якщо в одному з контрактів трапляється спеціальна умова, навичка вже містить логіку, як її обробити;
прогресивне відкриття: агент може коректно реагувати на нові деталі, які з’являються лише під час роботи, а не на етапі планування.

Мінус очевидний: skills не покривають усе. Неможливо заздалегідь описати кожен можливий випадок.

3. Еліцитація: питати людину, але без «інфінітного чату»

Коли навички не вистачає, наступний рівень — elicitation, тобто цілеспрямоване залучення людини:

агент приходить із конкретним питанням: «Я натрапив на такий випадок, як мені діяти?»;
бажано, щоб агент не блокувався: якщо не впевнений, він:
приймає тимчасове рішення;
записує його в журнал рішень (decision log);
продовжує роботу.

Потім людина може:

переглянути журнал;
скасувати або скоригувати окремі рішення.

Ключова проблема тут — інтерфейс. Якщо всі ці питання та рішення відбуваються в одному довжелезному чаті:

контекст губиться;
складно зрозуміти, до якого саме кроку роботи належить питання;
користувачеві важко відповісти, не бачачи повної картини.

Чат виявляється одновимірним і низькопродуктивним способом керувати складним деревом роботи.

Чому чат — це тупик для складних агентів

Чат як вхід — зручний: природна мова, гнучкість, можливість «пояснити все словами». Але як основний режим співпраці з комплексним агентом він має фундаментальні обмеження:

одновимірність: довге дерево завдань стискається в лінійну стрічку повідомлень;
низька пропускна здатність: важко одночасно бачити структуру роботи, стан підзадач і місця, де потрібне втручання;
погана прив’язка до артефактів: питання агента не завжди очевидно пов’язані з конкретним фрагментом коду, документа чи даних.

Для реальної спільної роботи потрібні «високоширокосмугові» (high‑bandwidth) артефакти, які:

є стійкими (persistent) — зберігаються й розвиваються з часом;
природні для конкретної галузі;
дозволяють одночасно бачити структуру, контекст і зміни.

Приклади таких артефактів

Документ як спільний простір роботи

У юридичній практиці це звичний формат співпраці між людьми, і він добре підходить і для агентів:

можна виділити конкретний пункт (наприклад, третій) і змінити лише його;
залишати коментарі;
«тегати» агентів або колег;
делегувати окремі частини документа спеціалізованим агентам.

Це дає високий контроль і зрозумілий спосіб вносити судження без руйнування всього результату.

Табличний огляд (tabular review)

Для масового аналізу контрактів зручно мати табличний інтерфейс, де:

рядки — окремі документи;
стовпці — ключові параметри або типи положень;
агент:
- проходить усі контракти;
- автоматично заповнює більшість полів;
- позначає лише ті місця, де потрібна думка людини.

Людина отримує:

швидкий огляд того, що зробив агент;
можливість точково внести правки;
ефективний спосіб «вшити» свій досвід у роботу системи.

Після такого огляду можна знову запускати агента, уже з урахуванням уточнень.

Мова — універсальний інтерфейс, але не єдиний для агентів

Природна мова — універсальний спосіб комунікації між людьми. Вона дозволяє:

ставити завдання;
уточнювати вимоги;
пояснювати контекст.

Але в людей є обмеження: ми прив’язані до мови. Навіть коли хочемо показати структуру (наприклад, оргструктуру компанії), часто змушені описувати її словами, хоча було б зручніше одразу намалювати схему.

Агенти таких обмежень не мають:

вони можуть одночасно працювати з текстом, структурованими даними, графами, таблицями, документами;
їм не потрібно «стискати» складну структуру в лінійний діалог.

Тому обмежувати агентів лише чат‑інтерфейсом — штучне й шкідливе обмеження. Для складних, довготривалих завдань потрібні:

артефакти, природні для конкретної галузі (документи, таблиці, графи);
інтерфейси, які відображають структуру роботи;
механізми локального втручання людини (skills, decision logs, точкові правки).

Висновок

Складні вертикальні задачі — особливо в праві, фінансах і розробці — вимагають від AI‑агентів не лише «розуму», а й правильного середовища співпраці з людьми. Чат залишається корисним способом постановки завдань, але як основний інтерфейс він не витримує навантаження:

не дає достатнього контролю;
ускладнює верифікацію;
погано масштабується на великі дерева роботи.

Майбутнє агентів — у високоширокосмугових, стійких артефактах, де люди й системи працюють разом: документи, табличні огляди, спеціалізовані інтерфейси для конкретних вертикалей. Саме там AI зможе брати на себе дедалі складніші задачі, а люди — зосереджуватися на тому, що справді важко формалізувати й перевірити.

Source

Agents need more than a chat – Jacob Lauritzen, CTO Legora

198

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Коментуйте, будь-ласка!

Будь ласка введіть ваше ім'я

Ви ввели некорректний Email

Ваш Email

Чому складним AI-агентам замало просто чату

Нові «економіки виробництва»: робота дешева, планування й рев’ю — ні

«Правило верифікатора» і чому не всі задачі піддаються агентам

Приклад: юридична галузь

Довіра й контроль: як правильно ділити роботу між людьми та агентами

Як підвищити довіру до агента

Як підвищити контроль над агентом

1. Планування: корисно, але недостатньо

2. Skills: «вшивання» людського досвіду в вузли роботи

3. Еліцитація: питати людину, але без «інфінітного чату»

Чому чат — це тупик для складних агентів

Приклади таких артефактів

Мова — універсальний інтерфейс, але не єдиний для агентів

Висновок

Source

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ