Коли великі мовні моделі перестали спотикатися на шкільних тестах і академічних бенчмарках, у лабораторій зник простий термометр прогресу. В OpenAI цю проблему довелося розв’язувати зсередини: створювати нові вимірювачі, які не просто показують «IQ моделі», а дають уявлення про її економічну цінність і науковий потенціал.

Про те, як народилися GDPval, Frontier Science Olympiad, Frontier Science Research та внутрішній AGI Index, розповідає Теджал Патвардган, керівниця команди frontier evals в OpenAI, у розмові на подкасті компанії. Її команда відповідає за те, щоб зрозуміти, де насправді перебувають найпотужніші моделі й куди вони рухаються.
Від тестів до реальних професій: народження GDPval
Перелом стався тоді, коли внутрішні моделі OpenAI почали «забивати стелю» на складних програмістських бенчмарках. На SWE‑bench різні покоління моделей показували подібні цифри просто тому, що завдання вже майже вичерпані. Усередині компанії це викликало справжню «кризу eval‑ів»: зрозуміло, що моделі стали помітно кращими, а виміряти це нічим.
Тут і з’являється ідея GDPval — першого публічного бенчмарку, який намагається підступитися не до тестів, а до реальних економічно важливих завдань.
Відправна точка виявилася несподівано приземленою: офіційна статистика праці. У США Bureau of Labor Statistics публікує детальні переліки основних професій і типових завдань у кожній з них. Усередині OpenAI сформулювали запитання майже буквально: якщо є список «топ‑робіт» і «топ‑завдань» — від фінансового аналізу до юридичних меморандумів і написання дослідницьких текстів, — чи можна змусити модель виконувати саме їх, у тому вигляді, як це роблять люди?
GDPval будується саме на таких робочих сценаріях. Моделі дають не вигадану задачку з інструкцією на одне речення, а великий, детально прописаний контекст. Це схоже на лист від керівника: сходити в конкретну таблицю, змінити певні параметри, зробити розрахунок, оформити його у вигляді записки. Кожен промпт — сотні слів, які імітують реальний робочий запит.
Перші результати виявилися холодним душем. Одна з ранніх моделей показала на GDPval менше 20% від людського рівня за цією шкалою. На суто робочих, добре визначених завданнях модель виявилася «значно гіршою за людину».
Втім, саме ця невдача стала точкою старту. Усередині OpenAI вирішили не ховати результат, а навпаки — оприлюднити методику й цифри. Теджал каже, що особливо пишається тим моментом: організація відкрито визнала слабке місце моделей та одночасно запропонувала новий спосіб вимірювати й прогнозувати прогрес у напрямі реальних економічних ефектів.
З того часу GDPval почав слугувати одразу двом цілям. Для економістів — як відправна точка в аналізі того, які професії й задачі першими відчують вплив ШІ. Для самої компанії — як внутрішній «будильник»: моделі довго не тренувалися спеціально на вузьких робочих сценаріях, ці завдання навіть не фігурували в системних метриках. Публікація бенчмарку стала сигналом, що «реальна корисність на роботі» має перейти в розряд пріоритетів.
Тепер ситуація інша: за словами Патвардган, у внутрішніх тестах моделі OpenAI вже показують на GDPval найкращі результати, а фокус тренування значно сильніше змістився до реальних професійних і наукових задач.
Коли бенчмарк стає надто легким
Ефект прогресу відчувся дуже швидко. Те, що ще недавно здавалося складним, за кілька поколінь моделей стало новою «шкільною математикою». Виявилося, що сама структура GDPval підштовхує до стелі: завдання «екстремально добре специфіковані», з величезними, детальними інструкціями.
Для моделі це комфортний режим: зрозуміло, що робити, до яких файлів звернутися, як оформити результат. Виник новий виклик: як перенести акцент з «виконання чіткого ТЗ» на те, що зазвичай вважається власне «роботою» — розуміння, що робити, як ставити задачу, як справлятися з неоднозначністю.
Наступний етап бачать так: змусити моделі працювати в умовах тієї самої невизначеності, з якою стикається будь-який «репорт» у компанії. Коли керівник каже: «Проведи, будь ласка, аналіз ось цього питання», ніхто не виписує багатосторінкову інструкцію. Людина має сама знайти дані, обрати методику, вирішити, як упакувати висновки.
Команда frontier evals зараз шукає способи відобразити саме це — як у сфері звичайної офісної роботи, так і в науці та індивідуальному використанні. Складність у тому, що доводиться проектувати вже не задачі, а цілі робочі контексти, з їхньою невизначеністю, довгим горизонтом дій і потребою у плануванні.
Одночасно з цим у компанії дедалі частіше спираються на «продакшн‑дані» — аналізують, як люди фактично використовують моделі в реальному світі, і які довгі, комплексні ланцюжки роботи вони вже сьогодні можуть на себе брати.
AGI Index: внутрішній CPI для штучного інтелекту
У публічному просторі розмови про «AGI‑тести» тривають роками, однак усередині OpenAI вирішили не прив’язуватися до одного-двох сакральних екзаменів. Замість цього з’явився AGI Index — внутрішній інструмент, натхненний класичною економічною статистикою.
Конструкція індексу прямо відсилає до індексу споживчих цін (CPI): там статистики беруть «кошик товарів» і стежать за зміною цін на нього. У випадку OpenAI «кошиком» стає набір eval‑ів, які відбивають те, чого компанія хоче від своїх моделей у ключових напрямах.
У цей набір входять вимірювання за кількома осями: від загальних capability‑ів до безпеки й alignment, а також різні типи роботи — наукової, професійної, прикладної. Кожен із цих елементів отримує свою вагу, і в сукупності формується багатовимірна шкала, за якою стежать між релізами.
Ключовий момент: AGI Index — не статичний. Команда постійно «оновлює цей індекс, щоби він дедалі краще представляв складну версію того, що ми хочемо, щоб наші моделі робили». Інакше кажучи, як тільки певна група завдань стає надто простою або вже не відповідає амбіціям, її місце займають складніші, реалістичніші сценарії.
Цей підхід дозволяє не зациклюватися на публічних бенчмарках, де результати різних компаній часто змішуються з бенчмаксингом і артефактами наборів даних. Усередині OpenAI акцент на тому, щоби рухатися за власною «корзиною» завдань, яка охоплює і науку, і роботу, і безпеку, і поступово стає вимогливішою з кожним поколінням моделей.
Frontier Science: від олімпіад до реальних дисертацій
Окремим напрямом стали наукові eval‑и — те, що в OpenAI описують як один із найцікавіших фронтів. Тут теж відбувається перехід від «ігрових» задач до чогось, максимально наближеного до реальних досліджень.
Першим шаром став Frontier Science Olympiad. Це науковий аналог математичних олімпіадних бенчмарків: складні, але відносно короткі задачі олімпіадного рівня з біології, хімії та фізики. Для моделей це серйозний виклик, але все ще «олімпіадний формат» — чітко сформульована задача з конкретною відповіддю.
На цьому рівні моделі «ще були не дуже хороші»: проміжний висновок — навіть дуже сильне «загальне мислення» не гарантує здатності одразу блискуче працювати в трьох складних природничих дисциплінах.
Другий рівень — Frontier Science Research. Тут завдання вже нагадують справжню наукову роботу, а не задачник. OpenAI зібрала корпус незавершених текстів із біології, хімії та фізики від PhD‑дослідників і професорів: фрагменти дисертацій чи статей, які ніколи не публікувалися. Вони стали основою eval‑у.
Моделі надають початковий текст, інколи з вхідними даними чи стартовою постановкою. Їхнє завдання — «дописати» решту: запропонувати продовження дослідження, описати методи, інтерпретацію результатів. Оцінювання відбувається за рубриками, які враховують не лише формальну правильність, а й те, чи модель справді поводиться як дослідник, а не просто генерує правдоподібний текст.
На цьому етапі починає вимірюватися здатність моделі допомагати в реальній науковій роботі: від розуміння контексту до використання інструментів і даних. Це вже не просто підбір правильної формули, а участь у процесі створення знання.
Від метрів до ринку праці й науки
Усі ці ініціативи — GDPval, Frontier Science Olympiad, Frontier Science Research, AGI Index — зафіксували один і той самий зсув: від вимірювання «розумності на папері» до спроб оцінити, наскільки моделі насправді корисні в роботі й науці.
У професіях, на які спирається GDPval, моделі поки що в основному закривають окремі задачі, а не цілі ролі. Теджал прямо говорить: зараз моделі переважно виконують завдання, тоді як робота включає ще й вибір цих завдань, навігацію в неоднозначності, комунікацію з колегами. Але навіть на рівні задач вплив масштабується швидко, і люди, які активно інтегрують ШІ у свою роботу, вже суттєво підвищують продуктивність.
У науці ситуація схожа: від олімпіадних задач команда OpenAI рухається до сценаріїв, де моделі допомагають завершувати реальні тези, а далі — до експериментів, прив’язаних до фізичного світу. В окремих публічних проєктах (про які йдеться в іншій частині розмови) моделі вже оптимізують лабораторні протоколи й змагаються з людськими фахівцями за показником «вартість/вихід».
Внутрішні eval‑и доповнюються аналізом реального використання в продакшні. У підсумку картиною прогресу стає не один «головний тест», а мережа взаємопов’язаних вимірів — від GPT‑асистента офісного працівника до співавтора наукових статей.
Висновок: вимірювати не просто IQ, а вплив
Поступове насичення академічних бенчмарків змусило OpenAI радикально змінити підхід до оцінки моделей. GDPval дав перший інструмент, щоб подивитися на економічний ефект: наскільки добре ШІ справляється з конкретними завданнями з реальних професійних описів. Frontier Science‑ініціативи перевели ту саму логіку в науку: від олімпіад до незавершених дисертацій і далі, до лабораторних експериментів.
AGI Index, у свою чергу, пропонує рамку, в якій усі ці різні вимірювання зводяться в єдиний «кошик» — не як остаточне визначення AGI, а як інструмент стеження за тим, наскільки швидко зростає корисність моделей у тих напрямках, які вважають важливими.
Ключова зміна полягає в тому, що мета eval‑ів перестає бути маркетинговою або суто науковою. Вони стають способом побачити, як саме й де моделі вже сьогодні можуть змінювати роботу людей — від працівників знань до дослідників на передньому краї.
Джерело
Подкаст OpenAI: “Why Tejal Patwardhan stopped underestimating the models – Episode 21”










