Неділя, 3 Травня, 2026

Невидимий хребет AI-систем: як Braintrust будує шар спостережуваності для агентів

У Лондоні на спільному воркшопі AI Engineer, Braintrust і Trainline розбиралися з тим, що насправді означає “довести AI до продакшену”. Не просто показати ефектний демо‑бот, а запустити складні багатокрокові агентні пайплайни з інструментами, реальними користувачами й усією притаманною цьому невизначеністю. У центрі цієї розмови — Braintrust, платформа спостережуваності та оцінювання AI, яку заснував Анкур Гоел, колишній засновник Impira (стартапу з витягання даних із документів, що згодом придбав Figma).

a couple of men sitting at a table with laptops

Braintrust позиціонує себе не як черговий агентний фреймворк чи LLM‑провайдер, а як незалежний шар інфраструктури, який сидить поруч із будь‑якими моделями та фреймворками і відповідає за те, щоб складні AI‑системи можна було бачити, розуміти, вимірювати й керувати ними. Саме це — спостережуваність, оцінювання, керування промптами й інструментами — стає критично важливим, коли прототипи мають перетворитися на надійні сервіси для мільйонів користувачів.

Платформа‑агностик: чому Braintrust не хоче замінити ваш стек

Сучасні AI‑команди дедалі рідше живуть у світі “однієї моделі й одного фреймворку”. У продакшені одночасно можуть працювати OpenAI, Anthropic, локальні LLM, спеціалізовані векторні бази, власні мікросервіси, а поверх цього — LangChain, LlamaIndex, власні агентні оркестратори чи внутрішні фреймворки. У такому середовищі будь‑який інструмент, який намагається “стати всім одразу”, швидко перетворюється на вузьке місце.

Braintrust принципово обирає іншу роль. Платформа описується як “platform‑agnostic” — вона не вимагає відмовлятися від наявних агентних фреймворків чи LLM‑провайдерів і не намагається їх замінити. Натомість Braintrust вбудовується поруч як шар спостережуваності та оцінювання, який:

  • підключається до вже існуючих агентних пайплайнів;
  • збирає детальні трейси всіх кроків, викликів інструментів і токенів;
  • дає єдине місце для аналізу поведінки системи, незалежно від того, які моделі чи фреймворки стоять “під капотом”.

Це важливий зсув у мисленні. Якщо класичні APM‑системи (на кшталт Datadog чи New Relic) стали стандартом для мікросервісів, то Braintrust намагається стати аналогом для AI‑додатків: не ще одним runtime, а шаром, який дозволяє бачити, що відбувається всередині агентів, і порівнювати різні конфігурації моделей, промптів та інструментів.

Для компаній на кшталт Trainline, Lovable чи Doctolib, які будують реальні, а не лабораторні AI‑сервіси, це означає можливість еволюціонувати стек без втрати контролю: змінювати LLM‑провайдера, додавати нові інструменти, перебудовувати агентні флоу — і при цьому зберігати єдину “панель приладів” для всієї системи.

Трейси до рівня токена: як побачити, що насправді робить агент

Ключова обіцянка Braintrust — не просто збирати логи, а відтворювати повну картину того, як агент мислить і діє. Для цього платформа трасує складні багатокрокові агентні воркфлови до рівня виклику інструменту й навіть окремих токенів.

У класичному підході до логування AI‑систем розробники часто бачать лише “вхід‑вихід”: промпт, відповідь моделі, можливо, кілька метаданих. Цього достатньо для дебагу простих чат‑ботів, але абсолютно недостатньо, коли мова йде про агентів, які:

  • послідовно викликають кілька інструментів;
  • приймають рішення на основі проміжних результатів;
  • змінюють стратегію в залежності від контексту;
  • працюють з політиками, правилами, зовнішніми API.

Braintrust розкладає цей “чорний ящик” на кроки. Для кожного запиту можна побачити:

  • які саме інструменти викликав агент, у якій послідовності й з якими аргументами;
  • як змінювався контекст між кроками;
  • які токени згенерувала модель на кожному етапі;
  • де саме виникла помилка, неузгодженість чи небажана поведінка.

Це перетворює роботу з агентами з інтуїтивного “підкручування промптів” на більш інженерний процес. Якщо в продакшені з’являється дивна відповідь або неочікуване рішення агента, розробник може не просто сказати “модель згенерувала нісенітницю”, а побачити, на якому кроці агент:

  • неправильно інтерпретував результат інструменту;
  • зробив хибний висновок із проміжних даних;
  • отримав неоднозначну інструкцію з промпта.

Саме на цьому рівні деталізації стає можливим систематичне покращення якості: не лише переписати один великий промпт, а розбити логіку на окремі стадії, додати перевірки, змінити політики виклику інструментів, ввести додаткові обмеження чи валідації.

Керовані промпти й інструменти: централізація того, що раніше “жило в коді”

Ще одна роль Braintrust у стеку — стати місцем, де живуть промпти та описані інструменти, якими користуються агенти. Платформа пропонує так звані “managed prompts” і “managed tool calls”, які можуть хоститися безпосередньо в інфраструктурі Braintrust.

У більшості команд промпти й опис інструментів спочатку з’являються як константи в коді. Це зручно на етапі прототипу, але швидко стає проблемою, коли:

  • промпти змінюють продакт‑менеджери, аналітики чи контент‑команди;
  • одна й та сама логіка використовується в кількох сервісах;
  • потрібно відстежувати версії промптів і повертатися до попередніх варіантів;
  • необхідно проводити A/B‑експерименти з різними формулюваннями.

Керовані промпти в Braintrust дозволяють винести цю логіку з коду в централізований шар. Розробники інтегруються з API платформи, а самі промпти живуть у керованому середовищі, де їх можна:

  • версіонувати;
  • порівнювати за метриками якості;
  • оновлювати без повного релізу бекенду.

Аналогічно з інструментами: замість того, щоб кожен сервіс по‑своєму описував, як агент має викликати той чи інший API чи внутрішній сервіс, Braintrust дозволяє оголосити “керовані tool calls” і хостити їх у себе. Це створює єдине джерело правди для того, як агенти взаємодіють із зовнішнім світом.

Для продакшен‑систем це означає дві речі. По‑перше, з’являється централізований контроль: зміна політики використання інструменту чи промпта не вимагає масових змін у коді. По‑друге, спостережуваність стає повнішою: оскільки Braintrust одночасно керує промптами й інструментами та трасує їх використання, він може пов’язувати зміни конфігурації з наслідками в поведінці системи.

Brainstorm: спеціалізована база для напівструктурованих трейсів

Щоб усе це працювало на реальних обсягах даних, потрібна не лише аналітика, а й серйозна інфраструктура зберігання. Трейси агентних систем — це не класичні рядки логів і не акуратні реляційні таблиці. Це напівструктуровані, вкладені об’єкти, які можуть містити:

  • дерева викликів інструментів;
  • проміжні промпти й відповіді;
  • метадані про моделі, версії промптів, користувацькі атрибути;
  • результати оцінок якості, ручних рев’ю, автоматичних чеків.

Щоб ефективно працювати з такими даними, Braintrust побудував власну спеціалізовану базу даних — Brainstorm. Вона оптимізована саме під зберігання й запити по трейсах у великому масштабі.

Це не просто технічна деталь, а відповідь на реальну проблему. Коли компанії намагаються зберігати AI‑трейси в загальних інструментах — від класичних лог‑сховищ до data warehouse — вони швидко впираються в обмеження:

  • складно робити гнучкі запити по вкладених структурах;
  • дорого зберігати великі обсяги тексту й токенів;
  • важко пов’язувати окремі кроки агента в єдину історію;
  • немає вбудованих примітивів для AI‑специфічних операцій (наприклад, порівняння відповідей моделей чи аналізу ланцюжків викликів інструментів).

Brainstorm, за задумом Braintrust, має закрити ці прогалини. Спеціалізація під трейс‑дані дозволяє:

  • зберігати великі обсяги напівструктурованих записів без втрати продуктивності;
  • швидко фільтрувати й агрегувати трейси за будь‑якими атрибутами — від типу помилки до конкретної версії промпта;
  • будувати поверх цього шар оцінювання, моніторингу й аналізу, який розуміє специфіку AI‑систем.

У результаті Braintrust може не лише показувати окремі трейси для дебагу, а й давати статистичну картину: як змінюється якість після оновлення моделі, які інструменти найчастіше призводять до збоїв, де з’являються нові класи помилок.

Від Impira до Braintrust: досвід applied ML і enterprise‑воркфлоу

Історія компанії частково пояснює, чому Braintrust так фокусується на продакшен‑реаліях, а не на “іграшкових” демо. Засновник Анкур Гоел до цього будував Impira — стартап, що займався витяганням даних із документів і працював на перетині машинного навчання та корпоративних процесів. Зрештою Impira придбав Figma.

Такий бекграунд означає глибоке розуміння двох речей. По‑перше, applied ML — це завжди про брудні дані, неоднорідні формати, складні інтеграції й вимоги бізнесу, які змінюються швидше, ніж моделі. По‑друге, enterprise‑воркфлоу — це про відповідальність, контроль, аудит і масштаб.

Braintrust фактично переносить ці уроки в нову епоху LLM і агентів. Замість того, щоб зосереджуватися лише на якості окремої моделі, платформа дивиться на всю систему: як вона вбудована в бізнес‑процеси, як її можна спостерігати, як вимірювати її поведінку, як керувати змінами.

Це також пояснює, чому компанія від самого початку орієнтується на реальні продакшен‑кейси. Партнерство з Trainline, а також клієнти на кшталт Lovable і Doctolib у Європі — це не просто логотипи на слайдах, а приклади організацій, де AI‑системи мають працювати в умовах високих очікувань користувачів, регуляторних вимог і складної інфраструктури.

Серія B, $80 млн і європейський вектор

Попри відносно молодий вік — близько трьох років — Braintrust уже встиг пройти шлях до раунду Series B. Нещодавно компанія залучила 80 мільйонів доларів при оцінці 800 мільйонів. Серед інвесторів — Iconiq, a16z та Greylock, фонди, які традиційно роблять ставку на інфраструктурні компанії з потенціалом стати стандартом де‑факто у своїй категорії.

Фінансування й набір інвесторів важливі не лише як показник ринкового інтересу до AI‑спостережуваності. Це також сигнал для великих клієнтів, що платформа має ресурси для довгострокового розвитку, підтримки й масштабування.

Окремий акцент — розширення присутності в Європі. На воркшопі в Лондоні Braintrust підкреслював, що активно будує локальну команду й працює з європейськими клієнтами. Trainline, Lovable, Doctolib — це компанії, які оперують у різних галузях (транспорт, споживчі сервіси, охорона здоров’я), але мають спільну потребу: запускати AI‑функції не як експерименти, а як частину основного продукту.

Європейський фокус також означає роботу в середовищі з жорсткішими регуляторними вимогами до даних і прозорості. Для платформи спостережуваності це радше можливість, ніж обмеження: чим більше уваги до аудиту, відтворюваності й контролю, тим ціннішим стає детальний шар трейсів і оцінок.

Чому саме зараз потрібен “спостережуваний” шар для агентів

На воркшопі в Лондоні багато учасників підняли руки, коли їх запитали, чи мали вони генеративні AI‑PоC, які так і не дійшли до продакшену. Причини знайомі: демо працює, але в реальному середовищі з’являються дивні відповіді, нестабільність, важко відстежити, що саме змінилося й чому система поводиться інакше.

Класична інженерна інтуїція — “додати логів” — у світі LLM і агентів виявляється недостатньою. Логи показують, що сталося, але не дають відповіді на питання “як” і “чому” на рівні внутрішньої логіки агента. Саме тут з’являється потреба в повноцінній спостережуваності:

  • розуміти, як агент приймає рішення на кожному кроці;
  • бачити, які інструменти й промпти реально використовуються;
  • пов’язувати зміни конфігурації з наслідками для якості;
  • систематично виявляти й класифікувати режими відмов.

Braintrust намагається закріпитися саме в цій ніші. Платформа‑агностик, яка не змушує переписувати стек, але дає можливість побачити й виміряти те, що раніше залишалося “магією” всередині LLM‑викликів. Керовані промпти й інструменти, власна база Brainstorm для трейсів, фокус на реальних продакшен‑кейcах — усе це елементи однієї стратегії: зробити складні агентні системи не лише можливими, а й керованими.

У міру того як компанії переходять від експериментів до масштабних впроваджень, питання “яку модель обрати” поступово відходить на другий план. Натомість на перший виходить інше: як побудувати інфраструктуру, яка дозволить змінювати моделі, інструменти й логіку без втрати контролю над системою. Braintrust претендує на роль такого інфраструктурного шару — невидимого для кінцевого користувача, але критично важливого для всіх, хто відповідає за якість і надійність AI‑продуктів.

Висновок: від демо до інфраструктури

Сьогоднішній ринок AI переповнений інструментами, які обіцяють швидко зібрати чергового чат‑бота чи агента. Але справжній виклик починається тоді, коли ці агенти мають працювати в реальних продуктах, з реальними користувачами й реальними наслідками помилок.

Braintrust будує себе як “хребет” для таких систем: платформу спостережуваності й оцінювання, яка не прив’язана до конкретних моделей чи фреймворків, але дає глибоке розуміння того, що відбувається всередині агентних воркфлоу. Трейси до рівня токена, керовані промпти й інструменти, спеціалізована база Brainstorm, фокус на продакшен‑кейcах і підтримка інвесторів рівня Iconiq, a16z і Greylock — усе це вказує на те, що спостережуваність AI стає окремим, повноцінним шаром інфраструктури.

Якщо перша хвиля генеративного AI була про те, щоб показати, що “воно взагалі працює”, то наступна — про те, щоб зробити ці системи прозорими, керованими й надійними. І саме в цій другій хвилі Braintrust намагається закріпитися як стандартний інструмент для команд, які серйозно ставляться до своїх AI‑продуктів.


Джерело

Shipping complex AI applications — Braintrust & Trainline

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті