OpenAI продовжує розширювати межі голосових інтерфейсів. На нещодавній сесії Build Hour команда компанії показала, як нова модель GPT‑Realtime‑2 працює не просто як «розумний співрозмовник», а як повноцінний агент, що керує інтерфейсами, інструментами та аналітичними панелями в реальному часі.
![]()
У центрі розмови — три ключові патерни використання голосу, а також два показові демо: голосовий шопінг-асистент для e‑commerce та голосовий «аналітик у циклі» для продуктових дашбордів. Разом вони демонструють, як голос може стати основним способом взаємодії з цифровими системами — від вибору намету до пошуку причини падіння метрик у Safari.
Три ментальні моделі для голосових агентів
OpenAI пропонує дивитися на GPT‑Realtime‑2 через три базові патерни застосування. Це не просто технічні режими, а ментальні моделі, які мають допомогти розробникам проєктувати голосові агенти більш осмислено.
Перший патерн — voice‑to‑action. Це сценарії, де голос безпосередньо перетворюється на дії в системі. Користувач формулює намір природною мовою, а агент сам обирає потрібні інструменти, викликає API, змінює стан інтерфейсу, оновлює дані. У цьому підході головне — не розмова заради розмови, а результат: щось має бути знайдено, відфільтровано, додано в кошик, змінено в налаштуваннях чи збережено в CRM.
Другий патерн — systems‑to‑voice. Тут голос виступає як «обличчя» складної системи. Агент збирає інформацію з різних бекенд‑сервісів, баз даних, аналітичних інструментів і повертає її у вигляді осмисленої голосової відповіді. Це радше «голосовий chief of staff»: він не просто читає сирі дані, а структурує їх, робить висновки, пріоритизує, пояснює.
Третій патерн — voice‑to‑voice. Це класичні голосові діалоги: кол‑центри, підтримка клієнтів, розмовні помічники. Але в інтерпретації GPT‑Realtime‑2 це вже не IVR‑меню з обмеженим сценарієм, а багатомовні, емоційно керовані агенти, які можуть одночасно говорити, слухати, викликати інструменти та підтримувати контекст розмови.
Саме через ці три патерни OpenAI пропонує мислити дизайн голосових продуктів. Далі — як це виглядає на практиці.
Голосовий шопінг-асистент: повний контроль UI через інструменти
Перший показовий сценарій — e‑commerce‑сайт із голосовим пошуковим агентом. На поверхні це виглядає як звичний голосовий помічник: користувач планує похід у Тихо‑Північно‑Західний регіон, відкриває улюблений онлайн‑магазин спорядження й звертається до асистента, щоб завершити покупки.
Але ключова відмінність — GPT‑Realtime‑2 не просто генерує відповіді. Він повністю керує інтерфейсом магазину через інструменти.
Агент починає з того, що «пам’ятає» попередні дії: підтягує план покупок, нагадує, що вже придбано (рюкзак, шкарпетки, термобутилка) і що ще потрібно (намет, трекінгове взуття). Далі користувач голосом уточнює критерії: намет до 450 доларів, на 3–4 людини. Модель викликає відповідні інструменти пошуку, застосовує фільтри за ціною, місткістю, наявністю, підсвічує два варіанти в UI — дорожчий, але краще оцінений, і дешевший, але з обмеженою наявністю.
Коли користувач просить розповісти про відгуки з однією‑двома зірками, агент не читає всі рецензії вголос. Він викликає інструмент для отримання відгуків, аналізує їх і повертає стисле резюме: повільне встановлення вперше, неідеальна поведінка в сильний шторм, але прийнятний варіант для типової дощової погоди в регіоні.
Далі — ще один важливий момент: інтеграція зовнішніх сервісів. Користувач просить перевірити прогноз погоди для Сіетла на потрібні дати. Агент викликає окремий інструмент для погоди, оцінює ризик шторму, співвідносить його з характеристиками намету й повертає рекомендацію: при помірному дощі намет підійде, але варто додати footprint і надійні кілки.
Усе це відбувається в одному голосовому діалозі, без необхідності користувачу самому відкривати вкладки з прогнозом погоди чи вручну читати відгуки. Завершується сценарій тим, що агент додає обраний намет у кошик, переходить до підбору водонепроникних черевиків, відкриває сторінку товару, аналізує відгуки про період розношування, додає взуття в кошик і показує загальну суму. Наостанок він ще й пропонує доречні додаткові товари — дощовий шар, footprint, набір кілків.
Технічно важливо, що GPT‑Realtime‑2 у цьому демо працює з великим набором інструментів — близько 15–20. Модель самостійно обирає, коли звернутися до пошуку, коли — до фільтрів, коли — до інструменту перегляду сторінки товару, коли — до зовнішнього API погоди. Вона може викликати кілька інструментів поспіль, комбінувати їх результати й оновлювати візуальний інтерфейс синхронно з голосовою відповіддю.
Це суттєво відрізняється від попередніх поколінь реального часу, де типовим патерном було «мовлення на вхід — одна дія на вихід». Тут голос стає тригером для цілого ланцюжка дій, а користувач бачить, як інтерфейс «оживає» під час розмови.
Аналітика голосом: агент як «аналітик у циклі»
Другий ключовий сценарій переносить ті самі принципи з e‑commerce у світ продуктової аналітики. Якщо в першому випадку GPT‑Realtime‑2 виступає як шопінг‑асистент, то тут він працює як «аналітик у циклі», який керує дашбордом, запускає дослідження причин проблем і повертає лише найважливіші висновки.
У цьому демо продукт‑менеджер того ж самого магазину Supply Co переходить до аналітичної панелі. Завдання — зрозуміти, що відбувається з показниками в Європі. Голосовий запит може звучати приблизно як: «Покажи, як змінилися ключові метрики в Європі за останні сім днів порівняно з попередніми сімома. Якщо є падіння, спробуй знайти причину».
Далі вступає в дію GPT‑Realtime‑2. Модель отримує доступ до інструментів керування дашбордом: фільтри за регіонами, часовими інтервалами, типами пристроїв, браузерами, каналами трафіку. Вона змінює фільтри, перемикає часові вікна, запускає порівняння періодів, аналізує графіки й таблиці.
Ключова деталь: агент не озвучує кожну свою дію. Він не коментує «зараз я застосовую фільтр Європа», «тепер перемикаюся на останні сім днів» тощо. Натомість він працює у фоновому режимі, як це робив би живий аналітик, і повертає користувачу вже стислі, осмислені висновки.
У демонстрації GPT‑Realtime‑2 порівнює показники для Європи за останні сім днів із попередніми сімома й виявляє регресію, специфічну для трафіку з браузера Safari. Це не просто констатація загального падіння — модель із допомогою інструментів ізолює проблему до конкретної комбінації регіон + браузер, що вже ближче до справжнього root‑cause аналізу.
Такий підхід ілюструє, як голосовий агент може стати постійним учасником аналітичного процесу. Продукт‑менеджер формулює запит природною мовою, агент запускає серію інструментальних викликів, підтримує стан розслідування, а потім або сам пропонує наступні кроки («перевірити, чи стосується це лише мобільного Safari», «порівняти конверсію після останнього релізу»), або чекає додаткових вказівок.
OpenAI окремо підкреслює, що GPT‑Realtime‑2 у такому режимі працює саме як «analyst in the loop». Він не замінює повністю людину‑аналітика, але бере на себе рутинну частину: перемикання фільтрів, побудову зрізів, базові порівняння, первинну ізоляцію аномалій. Людина ж зосереджується на інтерпретації, пріоритизації та прийнятті рішень.
Інструментальний роутинг і стан розслідування: що змінює GPT‑Realtime‑2
Обидва демо — і шопінг, і аналітика — тримаються на одній фундаментальній здатності GPT‑Realtime‑2: маршрутизувати запити через велику кількість інструментів, зберігати стан ітеративного процесу й повертатися до нього в міру появи нових даних.
У випадку з e‑commerce це означає, що модель:
– розуміє поточний контекст (похід у конкретний регіон, вже куплені товари, бюджет);
– обирає, коли звернутися до внутрішніх інструментів магазину (пошук, фільтри, відгуки, кошик), а коли — до зовнішніх (погода);
– поєднує результати кількох інструментів в одну рекомендацію (наприклад, прогноз погоди + слабкі сторони намету з відгуків);
– підтримує послідовність дій: від нагадування плану покупок до фінального підсумку в кошику.
У випадку з аналітикою GPT‑Realtime‑2 діє як агент, що веде розслідування. Він:
– пам’ятає, що запит стосується Європи й останніх семи днів;
– поетапно звужує простір пошуку: від загальних метрик до конкретних сегментів;
– ізолює Safari як джерело регресії;
– може продовжити аналіз за вказівкою користувача, не втрачаючи контекст попередніх кроків.
Це і є «аналітик у циклі»: модель не просто відповідає на одинокі питання, а живе всередині процесу, який розгортається в часі. Вона може повертатися до попередніх гіпотез, перевіряти їх на нових даних, змінювати напрямок аналізу.
Технічно це спирається на кілька можливостей GPT‑Realtime‑2, які OpenAI виділяє як нові для цього покоління. По‑перше, це розширене вікно контексту — 128 тисяч токенів, що дозволяє тримати в пам’яті довгі сесії без агресивного скорочення історії. По‑друге, паралельний виклик інструментів: модель більше не змушена викликати їх послідовно «водоспадом», що зменшує затримки й дає змогу комбінувати результати кількох джерел майже одночасно. По‑третє, покращене розуміння доменної лексики, зокрема в технічних і спеціалізованих сферах, що важливо як для продуктового аналізу, так і для складних товарних категорій.
Усе це разом дозволяє будувати голосові інтерфейси, де користувачеві не потрібно думати про те, які саме інструменти викликати. Він формулює задачу, а агент сам збирає потрібний «ланцюжок дій» у реальному часі.
Багатоголосі агенти та кросмодальний дизайн
Ще один аспект, який OpenAI демонструє в рамках цієї ж сесії, стосується того, як голосові агенти вписуються в ширший мультимодальний стек компанії.
У реальному часі голосова інфраструктура підтримує динамічне клонування голосу й розрізнення кількох співрозмовників. Це означає, що система може відстежувати, хто саме говорить у багатосторонній розмові, і відповідно налаштовувати відповіді. Така можливість відкриває шлях до мультипартійних голосових агентів: наприклад, коли в дзвінку одночасно беруть участь клієнт, оператор і голосовий асистент, або коли кілька членів команди спільно працюють із голосовим «аналітиком» над дашбордом.
Динамічне клонування голосу також дозволяє точніше відтворювати інтонації, що важливо для сценаріїв, де голосовий агент має бути максимально природним — від підтримки клієнтів до персональних помічників.
Паралельно OpenAI показує, як GPT‑Image‑2 використовується для створення концептуальних візуалізацій різних голосових сценаріїв. Ілюстрації до демо — це не статичний дизайн, а результат роботи іншої моделі, що генерує зображення. Таким чином, дизайнери й розробники можуть будувати кросмодальні робочі процеси: спочатку швидко згенерувати візуальні концепти голосових інтерфейсів, а потім реалізувати їх за допомогою GPT‑Realtime‑2.
Це підкреслює загальний напрямок, у якому рухається OpenAI: голос, текст, зображення й інструментальні виклики розглядаються не як окремі продукти, а як частини єдиного стеку, що дозволяє створювати складні, але природні для користувача взаємодії.
Висновок: від «розмови з ботом» до голосових робочих процесів
Демонстрації з e‑commerce та продуктовою аналітикою показують, що GPT‑Realtime‑2 намагається вийти за межі класичної моделі «я говорю — бот відповідає». Голос стає універсальним інтерфейсом до інструментів, даних і додатків, а сам агент — учасником робочого процесу, який може діяти автономно, але в тісній зв’язці з людиною.
Три патерни — voice‑to‑action, systems‑to‑voice і voice‑to‑voice — задають рамку для проєктування таких систем. У ній шопінг‑асистент уже не просто підказує, що купити, а керує всім шляхом користувача в інтерфейсі. Аналітичний агент не просто відповідає на питання про метрики, а веде розслідування, ізолює проблемні сегменти й підтримує стан дослідження.
Динамічне клонування голосу, підтримка кількох співрозмовників і використання GPT‑Image‑2 для візуального дизайну доповнюють цю картину, роблячи голосові агенти частиною ширшої мультимодальної екосистеми.
Для розробників це означає, що голосові інтерфейси більше не обмежуються простими сценаріями на кшталт «постав будильник» чи «увімкни музику». З GPT‑Realtime‑2 голос може стати повноцінним способом керування складними системами — від інтернет‑магазинів до аналітичних платформ — за умови, що ці системи будуть спроєктовані з урахуванням нових патернів і можливостей.


