У Лондоні на спільному воркшопі AI Engineer, Braintrust і Trainline розбиралися з тим, що насправді означає “довести AI до продакшену”. Не просто показати ефектний демо‑бот, а запустити складні багатокрокові агентні пайплайни з інструментами, реальними користувачами й усією притаманною цьому невизначеністю. У центрі цієї розмови — Braintrust, платформа спостережуваності та оцінювання AI, яку заснував Анкур Гоел, колишній засновник Impira (стартапу з витягання даних із документів, що згодом придбав Figma).

Braintrust позиціонує себе не як черговий агентний фреймворк чи LLM‑провайдер, а як незалежний шар інфраструктури, який сидить поруч із будь‑якими моделями та фреймворками і відповідає за те, щоб складні AI‑системи можна було бачити, розуміти, вимірювати й керувати ними. Саме це — спостережуваність, оцінювання, керування промптами й інструментами — стає критично важливим, коли прототипи мають перетворитися на надійні сервіси для мільйонів користувачів.
Платформа‑агностик: чому Braintrust не хоче замінити ваш стек
Сучасні AI‑команди дедалі рідше живуть у світі “однієї моделі й одного фреймворку”. У продакшені одночасно можуть працювати OpenAI, Anthropic, локальні LLM, спеціалізовані векторні бази, власні мікросервіси, а поверх цього — LangChain, LlamaIndex, власні агентні оркестратори чи внутрішні фреймворки. У такому середовищі будь‑який інструмент, який намагається “стати всім одразу”, швидко перетворюється на вузьке місце.
Braintrust принципово обирає іншу роль. Платформа описується як “platform‑agnostic” — вона не вимагає відмовлятися від наявних агентних фреймворків чи LLM‑провайдерів і не намагається їх замінити. Натомість Braintrust вбудовується поруч як шар спостережуваності та оцінювання, який:
- підключається до вже існуючих агентних пайплайнів;
- збирає детальні трейси всіх кроків, викликів інструментів і токенів;
- дає єдине місце для аналізу поведінки системи, незалежно від того, які моделі чи фреймворки стоять “під капотом”.
Це важливий зсув у мисленні. Якщо класичні APM‑системи (на кшталт Datadog чи New Relic) стали стандартом для мікросервісів, то Braintrust намагається стати аналогом для AI‑додатків: не ще одним runtime, а шаром, який дозволяє бачити, що відбувається всередині агентів, і порівнювати різні конфігурації моделей, промптів та інструментів.
Для компаній на кшталт Trainline, Lovable чи Doctolib, які будують реальні, а не лабораторні AI‑сервіси, це означає можливість еволюціонувати стек без втрати контролю: змінювати LLM‑провайдера, додавати нові інструменти, перебудовувати агентні флоу — і при цьому зберігати єдину “панель приладів” для всієї системи.
Трейси до рівня токена: як побачити, що насправді робить агент
Ключова обіцянка Braintrust — не просто збирати логи, а відтворювати повну картину того, як агент мислить і діє. Для цього платформа трасує складні багатокрокові агентні воркфлови до рівня виклику інструменту й навіть окремих токенів.
У класичному підході до логування AI‑систем розробники часто бачать лише “вхід‑вихід”: промпт, відповідь моделі, можливо, кілька метаданих. Цього достатньо для дебагу простих чат‑ботів, але абсолютно недостатньо, коли мова йде про агентів, які:
- послідовно викликають кілька інструментів;
- приймають рішення на основі проміжних результатів;
- змінюють стратегію в залежності від контексту;
- працюють з політиками, правилами, зовнішніми API.
Braintrust розкладає цей “чорний ящик” на кроки. Для кожного запиту можна побачити:
- які саме інструменти викликав агент, у якій послідовності й з якими аргументами;
- як змінювався контекст між кроками;
- які токени згенерувала модель на кожному етапі;
- де саме виникла помилка, неузгодженість чи небажана поведінка.
Це перетворює роботу з агентами з інтуїтивного “підкручування промптів” на більш інженерний процес. Якщо в продакшені з’являється дивна відповідь або неочікуване рішення агента, розробник може не просто сказати “модель згенерувала нісенітницю”, а побачити, на якому кроці агент:
- неправильно інтерпретував результат інструменту;
- зробив хибний висновок із проміжних даних;
- отримав неоднозначну інструкцію з промпта.
Саме на цьому рівні деталізації стає можливим систематичне покращення якості: не лише переписати один великий промпт, а розбити логіку на окремі стадії, додати перевірки, змінити політики виклику інструментів, ввести додаткові обмеження чи валідації.
Керовані промпти й інструменти: централізація того, що раніше “жило в коді”
Ще одна роль Braintrust у стеку — стати місцем, де живуть промпти та описані інструменти, якими користуються агенти. Платформа пропонує так звані “managed prompts” і “managed tool calls”, які можуть хоститися безпосередньо в інфраструктурі Braintrust.
У більшості команд промпти й опис інструментів спочатку з’являються як константи в коді. Це зручно на етапі прототипу, але швидко стає проблемою, коли:
- промпти змінюють продакт‑менеджери, аналітики чи контент‑команди;
- одна й та сама логіка використовується в кількох сервісах;
- потрібно відстежувати версії промптів і повертатися до попередніх варіантів;
- необхідно проводити A/B‑експерименти з різними формулюваннями.
Керовані промпти в Braintrust дозволяють винести цю логіку з коду в централізований шар. Розробники інтегруються з API платформи, а самі промпти живуть у керованому середовищі, де їх можна:
- версіонувати;
- порівнювати за метриками якості;
- оновлювати без повного релізу бекенду.
Аналогічно з інструментами: замість того, щоб кожен сервіс по‑своєму описував, як агент має викликати той чи інший API чи внутрішній сервіс, Braintrust дозволяє оголосити “керовані tool calls” і хостити їх у себе. Це створює єдине джерело правди для того, як агенти взаємодіють із зовнішнім світом.
Для продакшен‑систем це означає дві речі. По‑перше, з’являється централізований контроль: зміна політики використання інструменту чи промпта не вимагає масових змін у коді. По‑друге, спостережуваність стає повнішою: оскільки Braintrust одночасно керує промптами й інструментами та трасує їх використання, він може пов’язувати зміни конфігурації з наслідками в поведінці системи.
Brainstorm: спеціалізована база для напівструктурованих трейсів
Щоб усе це працювало на реальних обсягах даних, потрібна не лише аналітика, а й серйозна інфраструктура зберігання. Трейси агентних систем — це не класичні рядки логів і не акуратні реляційні таблиці. Це напівструктуровані, вкладені об’єкти, які можуть містити:
- дерева викликів інструментів;
- проміжні промпти й відповіді;
- метадані про моделі, версії промптів, користувацькі атрибути;
- результати оцінок якості, ручних рев’ю, автоматичних чеків.
Щоб ефективно працювати з такими даними, Braintrust побудував власну спеціалізовану базу даних — Brainstorm. Вона оптимізована саме під зберігання й запити по трейсах у великому масштабі.
Це не просто технічна деталь, а відповідь на реальну проблему. Коли компанії намагаються зберігати AI‑трейси в загальних інструментах — від класичних лог‑сховищ до data warehouse — вони швидко впираються в обмеження:
- складно робити гнучкі запити по вкладених структурах;
- дорого зберігати великі обсяги тексту й токенів;
- важко пов’язувати окремі кроки агента в єдину історію;
- немає вбудованих примітивів для AI‑специфічних операцій (наприклад, порівняння відповідей моделей чи аналізу ланцюжків викликів інструментів).
Brainstorm, за задумом Braintrust, має закрити ці прогалини. Спеціалізація під трейс‑дані дозволяє:
- зберігати великі обсяги напівструктурованих записів без втрати продуктивності;
- швидко фільтрувати й агрегувати трейси за будь‑якими атрибутами — від типу помилки до конкретної версії промпта;
- будувати поверх цього шар оцінювання, моніторингу й аналізу, який розуміє специфіку AI‑систем.
У результаті Braintrust може не лише показувати окремі трейси для дебагу, а й давати статистичну картину: як змінюється якість після оновлення моделі, які інструменти найчастіше призводять до збоїв, де з’являються нові класи помилок.
Від Impira до Braintrust: досвід applied ML і enterprise‑воркфлоу
Історія компанії частково пояснює, чому Braintrust так фокусується на продакшен‑реаліях, а не на “іграшкових” демо. Засновник Анкур Гоел до цього будував Impira — стартап, що займався витяганням даних із документів і працював на перетині машинного навчання та корпоративних процесів. Зрештою Impira придбав Figma.
Такий бекграунд означає глибоке розуміння двох речей. По‑перше, applied ML — це завжди про брудні дані, неоднорідні формати, складні інтеграції й вимоги бізнесу, які змінюються швидше, ніж моделі. По‑друге, enterprise‑воркфлоу — це про відповідальність, контроль, аудит і масштаб.
Braintrust фактично переносить ці уроки в нову епоху LLM і агентів. Замість того, щоб зосереджуватися лише на якості окремої моделі, платформа дивиться на всю систему: як вона вбудована в бізнес‑процеси, як її можна спостерігати, як вимірювати її поведінку, як керувати змінами.
Це також пояснює, чому компанія від самого початку орієнтується на реальні продакшен‑кейси. Партнерство з Trainline, а також клієнти на кшталт Lovable і Doctolib у Європі — це не просто логотипи на слайдах, а приклади організацій, де AI‑системи мають працювати в умовах високих очікувань користувачів, регуляторних вимог і складної інфраструктури.
Серія B, $80 млн і європейський вектор
Попри відносно молодий вік — близько трьох років — Braintrust уже встиг пройти шлях до раунду Series B. Нещодавно компанія залучила 80 мільйонів доларів при оцінці 800 мільйонів. Серед інвесторів — Iconiq, a16z та Greylock, фонди, які традиційно роблять ставку на інфраструктурні компанії з потенціалом стати стандартом де‑факто у своїй категорії.
Фінансування й набір інвесторів важливі не лише як показник ринкового інтересу до AI‑спостережуваності. Це також сигнал для великих клієнтів, що платформа має ресурси для довгострокового розвитку, підтримки й масштабування.
Окремий акцент — розширення присутності в Європі. На воркшопі в Лондоні Braintrust підкреслював, що активно будує локальну команду й працює з європейськими клієнтами. Trainline, Lovable, Doctolib — це компанії, які оперують у різних галузях (транспорт, споживчі сервіси, охорона здоров’я), але мають спільну потребу: запускати AI‑функції не як експерименти, а як частину основного продукту.
Європейський фокус також означає роботу в середовищі з жорсткішими регуляторними вимогами до даних і прозорості. Для платформи спостережуваності це радше можливість, ніж обмеження: чим більше уваги до аудиту, відтворюваності й контролю, тим ціннішим стає детальний шар трейсів і оцінок.
Чому саме зараз потрібен “спостережуваний” шар для агентів
На воркшопі в Лондоні багато учасників підняли руки, коли їх запитали, чи мали вони генеративні AI‑PоC, які так і не дійшли до продакшену. Причини знайомі: демо працює, але в реальному середовищі з’являються дивні відповіді, нестабільність, важко відстежити, що саме змінилося й чому система поводиться інакше.
Класична інженерна інтуїція — “додати логів” — у світі LLM і агентів виявляється недостатньою. Логи показують, що сталося, але не дають відповіді на питання “як” і “чому” на рівні внутрішньої логіки агента. Саме тут з’являється потреба в повноцінній спостережуваності:
- розуміти, як агент приймає рішення на кожному кроці;
- бачити, які інструменти й промпти реально використовуються;
- пов’язувати зміни конфігурації з наслідками для якості;
- систематично виявляти й класифікувати режими відмов.
Braintrust намагається закріпитися саме в цій ніші. Платформа‑агностик, яка не змушує переписувати стек, але дає можливість побачити й виміряти те, що раніше залишалося “магією” всередині LLM‑викликів. Керовані промпти й інструменти, власна база Brainstorm для трейсів, фокус на реальних продакшен‑кейcах — усе це елементи однієї стратегії: зробити складні агентні системи не лише можливими, а й керованими.
У міру того як компанії переходять від експериментів до масштабних впроваджень, питання “яку модель обрати” поступово відходить на другий план. Натомість на перший виходить інше: як побудувати інфраструктуру, яка дозволить змінювати моделі, інструменти й логіку без втрати контролю над системою. Braintrust претендує на роль такого інфраструктурного шару — невидимого для кінцевого користувача, але критично важливого для всіх, хто відповідає за якість і надійність AI‑продуктів.
Висновок: від демо до інфраструктури
Сьогоднішній ринок AI переповнений інструментами, які обіцяють швидко зібрати чергового чат‑бота чи агента. Але справжній виклик починається тоді, коли ці агенти мають працювати в реальних продуктах, з реальними користувачами й реальними наслідками помилок.
Braintrust будує себе як “хребет” для таких систем: платформу спостережуваності й оцінювання, яка не прив’язана до конкретних моделей чи фреймворків, але дає глибоке розуміння того, що відбувається всередині агентних воркфлоу. Трейси до рівня токена, керовані промпти й інструменти, спеціалізована база Brainstorm, фокус на продакшен‑кейcах і підтримка інвесторів рівня Iconiq, a16z і Greylock — усе це вказує на те, що спостережуваність AI стає окремим, повноцінним шаром інфраструктури.
Якщо перша хвиля генеративного AI була про те, щоб показати, що “воно взагалі працює”, то наступна — про те, щоб зробити ці системи прозорими, керованими й надійними. І саме в цій другій хвилі Braintrust намагається закріпитися як стандартний інструмент для команд, які серйозно ставляться до своїх AI‑продуктів.


