OpenAI у відеодемонстрації GPT‑Rosalind показує, як спеціалізована Life Sciences‑модель у середовищі Codex допомагає науковим командам у фармі та біотеху переходити від сирих даних до обґрунтованих рішень у дослідницьких програмах.

Від сирих даних до пріоритизації таргетів
Life Sciences‑модель працює як надбудова над типовим discovery‑процесом: вона поєднує структурований пошук даних, роботу з науковою літературою та аналітику в єдиний повторюваний робочий процес.
У продемонстрованому сценарії система отримує завдання порівняти й пріоритизувати три терапевтичні мішені для лікування астми: IL‑33, TSLP та IL‑1 RA1. Вихідною точкою стає внутрішній «evidence package» — пакет доказів, який включає:
- результати внутрішніх біологічних асайїв;
- стратегію щодо біомаркерів;
- оцінку «tractability» (наскільки реально працювати з таргетом з точки зору хімії, біології, формату молекули тощо);
- дані з безпеки;
- цільовий профіль продукту (target product profile).
На основі цього масиву інформації модель формує чітку, «топ‑лайн» рекомендацію: ранжує таргети та пояснює, на яких саме локальних файлах і даних ґрунтується такий висновок. Окремо підсвічується, де бракує доказів і де є сенс розширити базу, наприклад, за рахунок людської генетики або додаткових даних про зв’язок таргету з хворобою.
Плагіни та спеціалізовані навички для біонаук
Life Sciences‑модель інтегрована з Life Sciences Research Plugin — плагіном, який дає змогу підтягувати додаткові релевантні дані з зовнішніх джерел. Модель навчена не лише виконувати окремі «навички» (skills), а й вирішувати, коли саме їх доцільно викликати та як синтезувати результати.
Це дозволяє:
- комбінувати внутрішні дані компанії з публічними базами;
- автоматизувати літературний пошук;
- будувати цілісну картину доказів навколо кожного таргету;
- уникати ручного «копання» в численних джерелах.
Фактично, система виступає як оркестратор спеціалізованих інструментів, який знає, які саме ресурси потрібні для конкретного наукового запиту.
Субагенти: розділити лінії доказів, а потім об’єднати
Одна з ключових можливостей Codex у цьому сценарії — запуск субагентів (sub‑agents), кожен з яких відповідає за окрему «лінію» доказів. Для аналізу астматичних таргетів окремо виділяються:
- людська генетика;
- трансляційна біологія;
- регуляторний контекст;
- інші критерії, важливі для прийняття рішень у R&D.
Наприклад, агент «Pascal» отримує відповідальність за всю людську генетичну доказову базу, релевантну для порівняння трьох таргетів. Він формує перелік навичок, які потрібно задіяти, щоб зібрати «правильний» рівень генетичних даних.
Такий підхід дозволяє:
- тримати різні типи доказів — генетику, біологію, регуляторику — окремо й неупереджено до фінального етапу;
- мінімізувати перехресний вплив одних джерел на інтерпретацію інших;
- отримати більш прозору структуру аргументації.
Після того як усі шість субагентів завершують свою роботу, їхні результати синтезуються в єдину фінальну пріоритизацію таргетів.
Вихід на «bio‑intelligence»: як модель працює з контекстом
Завдяки доступу до різних баз даних Life Sciences‑модель здатна:
- відновлювати контекст «locus‑to‑gene» — зв’язок між генетичними локусами та конкретними генами;
- відстежувати сигнали через різні когорти пацієнтів;
- підтягувати таргет‑дизіз‑евіденс — дані про зв’язок мішені з конкретним захворюванням;
- працювати з літературою для розв’язання суперечливих або неоднозначних сигналів.
Модель описується як «primed with greater thinking and bio‑intelligence» — налаштована на глибше міркування в межах складних наукових задач. У практичному вимірі це означає, що система не просто агрегує дані, а будує логічний ланцюжок: від сирих сигналів до структурованих, відтворюваних рішень для дослідницьких команд.
Джерело
Відео: Turning scattered evidence into discovery decisions for life sciences


