Коли OpenAI готувала до запуску GPT‑4o, команда з оцінювання можливостей моделей раптово опинилася у новій реальності. Текстові бенчмарки, до яких уже звикли дослідники, перестали бути достатніми: модель вміла говорити в реальному часі, сприймати світ через зображення, а паралельно інша система — Sora — навчилася генерувати відео.
![]()
Про те, як під цей стрибок довелося лама́ти стару інфраструктуру eval‑ів, будувати нові платформи для голосу й відео та чому «pain is the moat», розповідає Теджал Патвардган, яка очолює команду frontier evals в OpenAI, у розмові з ведучим подкасту компанії Ендрю Мейном.
Коли «зносить дах»: реальний час і голос ламають стару парадигму
Поява GPT‑4o стала для внутрішньої команди моментом, коли стало ясно: звичні тести більше не описують нову модель.
Теджал згадує, як одразу після того, як вони вперше побачили GPT‑4o з голосовою взаємодією в реальному часі, група колег сиділа на даху будівлі й буквально обговорювала, що робити далі. Ідея real‑time voice‑моделі «знесла дах»: раптово з’ясувалося, що всі наявні інструменти оцінювання будувалися навколо тексту й коду, тоді як тут модель говорить, слухає, реагує миттєво.
Класичний pipeline «подаємо текстовий промпт — отримуємо текстову відповідь — автоматично оцінюємо» більше не працює. У голосовій взаємодії в реальному часі важить інтонація, темп, здатність підтримувати діалог без затримок, поводитися природно. Це не схоже на черговий варіант multiple choice‑тесту, який можна перевірити скриптом.
Саме тому мультимодальність виявилася не просто новою фічею, а ударом по старій інфраструктурі eval‑ів. Для нативно мультимодальних моделей, підкреслює Теджал, доводиться «розірвати купу своєї інфраструктури й змусити все працювати по‑новому».
Шість тижнів паузи: як безпека зупинила публічний запуск GPT‑4o
Реальний час і реалістичний голос принесли не лише захоплення, а й нові ризики.
Теджал розповідає, що OpenAI свідомо відклала публічний запуск GPT‑4o на шість тижнів. Причина була не технічна, а безпекова: у компанії намагалися зрозуміти, як переконатися, що така модель є безпечною для широкого використання.
Це відбувалося на тлі виборчого циклу, і головне занепокоєння звучало дуже конкретно: якщо модель може в реальному часі говорити з людиною надзвичайно реалістичним голосом, чи може це перетворитися на інструмент переконливої пропаганди?
Щоби відповісти на це, довелося спершу буквально вигадати, як взагалі тестувати подібні сценарії. Попередні методики безпекового оцінювання орієнтувалися на текст: виявити токсичний контент, шкідливі інструкції, маніпулятивні патерни в чаті. Тепер потрібно було моделювати живу розмову, розбиратися з тембрами, стилями мовлення, контекстом діалогу.
У підсумку компанія вирішила не поспішати з релізом, щоби встигнути побудувати новий стек тестів та закласти у модель пом’якшення, які знижують ризики зловживань. Для frontier evals це став показовий кейс: появу нових можливостей уже неможливо відділити від нових форматів оцінювання ризиків.
Відео як виклик: Sora і «цілком новий стек eval‑ів»
Якщо голосова модель у реальному часі ламає текстову парадигму, то генерація відео вносить ще один рівень складності.
Для Sora, розповідає Теджал, всередині OpenAI від самого початку стояло завдання не допустити, щоби відео були «надто реалістичними» або могли бути використані не за призначенням. Це сформувало цілу низку технічних і безпекових вимог до eval‑ів.
Старі підходи тут непридатні: немає простого способу оцінити відеоролик за аналогією з тестом із відповідями A, B, C, D. Потрібно враховувати ступінь фотореалістичності, здатність контенту вводити в оману, тематичні обмеження, контекст використання. І це все — на масштабах, достатніх для реального продукту.
За словами Теджал, для Sora довелося фактично будувати:
- окремий стек eval‑ів,
- новий набір пом’якшень на рівні моделі (зокрема відмови на небажані запити),
- механізми моніторингу використання у продакшені.
Йдеться не про разову кампанію, а про нову, постійну операційну реальність. Модель, яка здатна генерувати відео, вимагає постійного нагляду за тим, як саме вона використовується, і регулярного оновлення тестів та фільтрів у відповідь на зміну поведінки користувачів і зловмисників.
Нативна мультимодальність проти старої інфраструктури
Ключова проблема з оцінюванням мультимодальних моделей полягає в тому, що вони «нативно» працюють із кількома типами даних водночас. Теджал підкреслює: для деяких таких систем доводиться буквально ламати наявну інфраструктуру й будувати все інакше.
У текстовій парадигмі ланцюг виглядав відносно просто: промпт — відповідь — автоматична перевірка або ручний рев’ю. Тепер же в гру входять голос, зображення, відео, іноді ще й дії моделі у зовнішньому середовищі.
Оцінювання перетворюється на складну інженерну задачу, де потрібно:
- збирати багатоканальні вхідні дані (аудіо, відео, текст),
- зберігати й відтворювати реальні сценарії взаємодії,
- забезпечувати людську оцінку там, де автоматизувати judgment поки що неможливо,
- поступово автоматизувати частину процесу, щоб масштабувати тести.
Навіть стартова фаза часто виглядає «по‑людськи»: Теджал описує типовий підхід як спробу спочатку зробити те саме, що робили б люди. Сформувати набір вхідних сигналів і бажаних виходів, змусити експертів оцінювати результат, а вже потім поступово обростати платформами, автоматизацією та інструментами.
Це означає, що frontier evals усе менше нагадують класичні наукові бенчмарки й усе більше — складні операційні системи, які постійно адаптуються до нових типів моделей.
«Pain is the moat»: чому фізичний світ стає вузьким місцем для eval‑ів
У команді Теджал є фраза, яка вже перетворилася на своєрідне кредо: «pain is the moat» — біль є moat‑ом, бар’єром входу.
Вона пояснює, що дедалі більша частина найскладнішої роботи з eval‑ами — це не теорія й не математика, а операції у фізичному світі. Ідеться не лише про класичні «wet labs» чи роботи; навіть у суто цифрових сценаріях усе стає набагато складніше.
Навіть сьогодні, щоб виміряти, як добре модель керує комп’ютером, потрібно створити складне середовище: модель викликає API, керує браузером, взаємодіє з файловою системою, генерує артефакти, пише й виконує код. Це важко точно змоделювати, ще важче — стабільно виміряти.
Якщо ж вийти за межі «цифри», операційні витрати ростуть ще сильніше. Для експериментів у фізичному світі потрібні лабораторії, обладнання, логістика, фахівці, які можуть перевірити результати. Оцінювання стає настільки дорогим і складним, що сама спроможність виконувати такі eval‑и надійно перетворюється на конкурентну перевагу.
За словами Теджал, її власна робота помітно змістилася від програмування до планування, операцій та фізичних процесів. І це симптом ширшої тенденції: якщо раніше основна «біль» frontier evals полягала в написанні коду, то тепер — у керуванні складними операціями, що поєднують моделі, інфраструктуру й реальний світ.
Дорожчі, повільніші, але неминучі: як еволюціонують eval‑и
Мультимодальні й довгогоризонтні моделі змінюють не лише інструменти, а й темп роботи.
Теджал визнає: сучасні eval‑и стають і дорожчими, і повільнішими. Якщо модель може працювати для користувача годинами, днями чи навіть тижнями, то й тести, які мають відобразити таку поведінку, не можуть бути миттєвими. Це створює нові обмеження: щоб не чекати тиждень на кожен сигнал, доводиться розробляти масштабні підходи до прогнозування прогресу, своєрідні «скейлінг‑логику», які допомагають екстраполювати поведінку моделі на довші горизонти, спираючись на коротші експерименти.
На додачу, мультимодальність вимагає значно більшої участі людей у критичних точках. Автоматизація все ще не може повністю замінити людський judgment головно там, де йдеться про етичні й безпекові аспекти: пропаганда, маніпуляція, потенційне зловживання відео‑ та аудіоконтентом.
Результат — своєрідний «новий клас» eval‑ів: вони більше схожі на повноцінні операційні проєкти з інфраструктурою, моніторингом, залученням експертів, ніж на традиційні академічні бенчмарки. І саме в цій складності, за логікою «pain is the moat», і полягає те, що відрізняє справжні frontier‑команди від усіх інших.
Висновок: мультимодальність як стрес‑тест для всієї системи оцінювання
Голосові, візуальні й відеомоделі стали стрес‑тестом не тільки для обчислювальних кластерів, а й для всієї системи оцінювання прогресу. GPT‑4o змусив переосмислити, як тестувати реальний час та голос, і відтермінував реліз заради безпеки. Sora потребувала абсолютно нового стека eval‑ів і пом’якшень, щоб мінімізувати ризики зловживань відео.
Нативна мультимодальність розірвала стару інфраструктуру, змусивши будувати платформи, які можуть одночасно працювати з текстом, голосом, зображенням і відео. А вихід у фізичний світ зробив операції — від лабораторій до логістики — новим вузьким місцем та водночас новим moat‑ом.
Цей перехід показує просту річ: що далі від класичних текстових завдань відходять моделі, то більше frontier evals перетворюються з набору тестів на складні інженерні та операційні системи. І без цієї інфраструктури, наскільки болісною й дорогою вона не була б, говорити про безпечний розвиток мультимодального AI вже неможливо.
Джерело
OpenAI Podcast – Why Tejal Patwardhan stopped underestimating the models – Episode 21


