OpenAI продовжує перетворювати голосовий інтерфейс із «голосового чат-бота» на повноцінний інтелектуальний шар між людиною та цифровими системами. На черговій сесії Build Hour представники компанії розповіли про нове покоління аудіомоделей — GPT‑Realtime‑2, GPT‑Realtime‑Translate та GPT‑Realtime‑Whisper — і показали, як вони працюють разом у єдиному стеку для надшвидких голосових взаємодій. У центрі уваги — GPT‑Realtime‑2, яку в OpenAI позиціонують як свою найінтелектуальнішу голосову модель, фактично виносячи «GPT‑5‑клас» міркування у реальний час.

Єдиний стек для голосу: три моделі, одна розмова
Новий аудіостек OpenAI складається з трьох моделей, які спроєктовані так, щоб працювати разом і закривати весь шлях від людського голосу до дії в системі й назад до голосової відповіді.
Перший елемент — GPT‑Realtime‑Translate. Це модель для потокового перекладу, яка підтримує понад 70 вхідних мов і 13 вихідних. Вона працює з низькою затримкою, тож переклад з’являється практично одночасно з мовленням. Такий режим особливо важливий для відеодзвінків, прямих трансляцій і багатомовної підтримки клієнтів, де паузи в кілька секунд уже відчуваються як дискомфорт.
Другий компонент — GPT‑Realtime‑Whisper. Це стрімінгова система розпізнавання мовлення, яка підтримує 80 вхідних мов і дозволяє налаштовувати затримку аж до приблизно 200 мілісекунд. Фактично це означає, що текст з’являється майже синхронно з голосом. Такий режим відкриває можливості для живих субтитрів, протоколювання зустрічей, «фонових» агентів, які слухають розмову й оновлюють контекст, а також для сценаріїв, де важливо якнайшвидше викликати функції чи інструменти на основі сказаного.
Над цими двома шарами працює GPT‑Realtime‑2 — головний «мозок» стеку. Whisper перетворює голос на текст, Translate за потреби долає мовний бар’єр, а Realtime‑2 міркує, викликає інструменти, керує інтерфейсами й формує відповідь, яка потім знову озвучується. Важливо, що все це відбувається в одному реальному часі, без відчутних для користувача розривів між розпізнаванням, розумінням і дією.
У цьому стеку також з’являється динамічне клонування голосу та розрізнення кількох співрозмовників. Система може імітувати тон і тембр, а також розуміти, що в діалозі беруть участь різні люди, — це критично для конференц-дзвінків, групових сесій підтримки чи багатокористувацьких застосунків.
GPT‑Realtime‑2: голосовий інтерфейс із «GPT‑5‑класом» міркування
Ключова новинка — GPT‑Realtime‑2, яку в OpenAI описують як свою найінтелектуальнішу голосову модель. Ідея полягає в тому, щоб перенести рівень міркування, який асоціюється з наступним поколінням великих мовних моделей, у формат живої голосової взаємодії.
Це означає, що голосовий агент перестає бути лише «розмовним шаром» над API. У демонстрації e‑commerce‑сайту модель не просто відповідала на запитання про товари, а й керувала інтерфейсом через інструменти: шукала намети за заданим бюджетом, застосовувала фільтри, аналізувала відгуки з низькими оцінками, зверталася до зовнішнього сервісу погоди, а потім поверталася до кошика, оновлювала його й пояснювала логіку своїх рекомендацій.
Раніше подібні сценарії часто зводилися до схеми «голос → один виклик функції → відповідь». GPT‑Realtime‑2 демонструє іншу парадигму: «голос → багатокрокове міркування → маршрутизація між десятками інструментів → оновлення стану системи → контекстуалізована відповідь». У показаному прикладі модель одночасно мала доступ до 15–20 інструментів і самостійно обирала, що саме викликати, в якій послідовності й коли варто звернутися до зовнішніх джерел на кшталт прогнозу погоди.
Це наближає голосові агенти до ролі «аналітика в циклі», який не лише відповідає на запитання, а й веде розслідування, тримає в голові проміжні висновки й повертається до них у наступних кроках. Для користувача це виглядає як розмова з помічником, який розуміє контекст задачі, а не просто реагує на окремі команди.
128 тисяч токенів: довга пам’ять для складних голосових сесій
Один із найпомітніших технічних стрибків у GPT‑Realtime‑2 — збільшення вікна контексту вчетверо, до 128 000 токенів. У часовому вимірі це приблизно відповідає майже годині розмови, що співпадає з тривалістю типової сесії Build Hour.
Для голосових інтерфейсів це не просто «більше тексту». Довге вікно контексту означає, що модель може:
утримувати в пам’яті довгі, багатокрокові діалоги без агресивного обрізання історії;
зберігати проміжні висновки, обмеження користувача й параметри задачі протягом усієї сесії;
працювати з комплексними робочими процесами, де задіяно багато інструментів і зовнішніх систем.
У тому ж e‑commerce‑сценарії агент пам’ятав, що користувач уже купив частину спорядження, знав, які позиції ще потрібні, і не просив повторювати цю інформацію. Коли розмова переходила від вибору намету до аналізу відгуків, потім до перевірки погоди й далі до вибору взуття, модель зберігала цілісну картину: бюджет, розмір взуття, тип подорожі, часові рамки.
У більш складних сценаріях — наприклад, у продуктовій аналітиці чи технічній підтримці — таке вікно дозволяє моделі тримати в полі зору всю історію дослідження: які фільтри вже застосовувалися, які гіпотези перевірялися, які сегменти користувачів чи ринків уже аналізувалися. Це зменшує потребу в ручному резюмуванні й повторному формулюванні задачі, роблячи голосову взаємодію ближчою до реальної спільної роботи з колегою.
Паралельні інструменти: від «водоспаду» до одночасного міркування
Ще одна фундаментальна зміна в GPT‑Realtime‑2 — підтримка паралельного виклику інструментів. У попередніх поколіннях голосових моделей типова схема виглядала як «водоспад»: модель викликає один інструмент, чекає на результат, потім вирішує, що робити далі, викликає наступний інструмент і так далі. Кожен крок додавав затримку, а складні сценарії швидко ставали повільними й крихкими.
Тепер GPT‑Realtime‑2 може викликати кілька інструментів одночасно. У практиці це означає, що агент, який допомагає обирати спорядження, може паралельно:
оновлювати фільтри в інтерфейсі магазину;
завантажувати відгуки про товар;
звертатися до сервісу погоди;
перевіряти наявність товару на складі;
оновлювати кошик.
Користувач при цьому чує одну зв’язну відповідь, але під капотом модель збирає дані з різних джерел, зводить їх і формує рекомендацію. Це не лише скорочує затримку, а й відкриває шлях до більш багатого міркування, коли висновки будуються на основі кількох незалежних сигналів.
Для розробників це означає, що можна проєктувати голосових агентів, які працюють із десятками інструментів, не боячись, що кожен додатковий виклик перетворить взаємодію на повільний ланцюжок. Паралельність стає базовою властивістю, а не оптимізацією.
Краще розуміння доменів: від медицини до AI‑лексикону
Окремий акцент у GPT‑Realtime‑2 зроблено на покращенні розуміння спеціалізованої лексики. Модель краще працює з доменними словниками в таких сферах, як охорона здоров’я чи термінологія штучного інтелекту.
Для голосових інтерфейсів це критично. У медичних сценаріях неправильне розпізнавання терміну може змінити зміст рекомендації або зробити діалог непридатним для використання. У технічних — спотворити назви бібліотек, протоколів чи параметрів, що ускладнює роботу розробників.
Покращене доменне розуміння зменшує кількість таких помилок і робить голосові агенти придатнішими для професійних середовищ, де точність термінів має значення. У поєднанні з довгим контекстом це дозволяє будувати голосові системи, які можуть вести складні технічні чи медичні розмови, не спрощуючи їх до рівня побутового чату.
Контекст між репліками: крок до справді агентної поведінки
Ще одна важлива властивість GPT‑Realtime‑2 — здатність утримувати контекст між численними репліками й використовувати його для більш «агентної» поведінки. Йдеться не лише про запам’ятовування фактів, а й про збереження обмежень, проміжних висновків і планів.
У демонстраціях це проявляється в тому, що голосовий помічник пам’ятає, які товари вже в кошику, які параметри користувач задавав раніше, які ризики (наприклад, погодні) уже оцінювалися. Коли користувач повертається до теми, модель не починає з нуля, а продовжує міркування з урахуванням попередніх кроків.
У ширшому сенсі це наближає голосові моделі до ролі автономних агентів, які можуть:
вести розслідування (наприклад, причин падіння метрик у певному регіоні);
повертатися до проміжних результатів;
оновлювати гіпотези на основі нових даних;
підтримувати довготривалі сесії без втрати «нитки» розмови.
Для бізнесу це означає, що голосовий інтерфейс може стати не просто «фронтендом» до API, а інструментом спільної роботи, де модель бере на себе частину аналітичної й організаційної функції.
Керована експресивність: від шепоту до «Давайте перевірю це»
Окрім інтелектуальних покращень, GPT‑Realtime‑2 отримала нові можливості керування тим, як саме модель говорить. Йдеться про дві пов’язані, але різні функції: керовану експресивність і преамбули.
Керована експресивність дозволяє розробникам задавати емоційний тон і навіть спосіб мовлення. Моделі можна явно вказати, щоб вона говорила пошепки, звучала схвильовано, радісно чи з іншою заданою емоцією. Це відкриває простір для тонкого налаштування голосових інтерфейсів під контекст: спокійний тон для медичних консультацій, більш енергійний — для ігрових сценаріїв, стриманий — для фінансових сервісів.
Преамбули — це можливість задати фрази, які модель вимовляє перед тим, як почати міркувати чи викликати інструменти. Класичний приклад — «Let me check on that» («Давайте я це перевірю»). Така поведінка робить взаємодію більш природною: користувач чує, що агент «зайнявся» запитом, навіть якщо для складної операції потрібна додаткова секунда чи дві.
У поєднанні з емоційним тоном це дозволяє будувати голосові інтерфейси, які не лише правильно відповідають, а й «поводяться» так, як очікує людина в конкретному контексті. Для служб підтримки це може зменшити відчуття спілкування з машиною, для освітніх застосунків — зробити досвід більш залучаючим, а для внутрішніх інструментів — просто зрозумілішим.
Три патерни голосових інтерфейсів: голос‑до‑дії, системи‑до‑голосу, голос‑до‑голосу
OpenAI окреслює три основні патерни використання GPT‑Realtime‑2 у голосових сценаріях. Вони не вичерпують усіх можливостей, але задають корисну рамку для проєктування продуктів.
Перший патерн — voice‑to‑action, або голос‑до‑дії. Це hands‑free застосунки, де голос безпосередньо керує діями в системі: від пошуку товарів і налаштування фільтрів до запуску складних робочих процесів. Демонстрація з e‑commerce‑сайтом добре ілюструє цей підхід: користувач говорить, а агент не просто відповідає, а змінює інтерфейс, оновлює кошик, звертається до зовнішніх сервісів.
Другий — systems‑to‑voice, або системи‑до‑голосу. Тут голос стає «обличчям» складних бекенд‑процесів: аналітики, інтеграцій, автоматизацій. Агент може виступати як «голосовий шеф‑офісу», який збирає інформацію з різних систем, узагальнює її й повертає у вигляді розмови, не обов’язково озвучуючи кожну дію. У такому режимі GPT‑Realtime‑2 може працювати як аналітик, який мовчки перемикає фільтри й перевіряє гіпотези, а говорить лише тоді, коли є що сказати.
Третій — voice‑to‑voice, або голос‑до‑голосу. Це класичні голосові дзвінки, служби підтримки, інтерактивні голосові меню, де користувачі спілкуються з агентом як із живим оператором. Тут особливо важливі природність голосу, керована експресивність, динамічне клонування й розрізнення кількох співрозмовників.
Усі три патерни спираються на ті самі технічні основи — довгий контекст, паралельні інструменти, доменне розуміння й керовану експресивність, — але по‑різному комбінують їх залежно від сценарію.
Від демо до екосистеми: як розробникам почати працювати з новим стеком
OpenAI намагається зробити вхід у новий голосовий стек максимально практичним. Для цього компанія пропонує кілька ресурсів, орієнтованих на розробників.
Документація з голосових агентів доступна на порталі для розробників за адресою developers.openai.com/api/docs/guides/voice-agents. Там описано, як працювати з новими моделями, як налаштовувати інструменти, контекст, експресивність і преамбули.
Окремий аудіо‑пісочниця розміщена на platform.openai.com/audio/realtime. Це середовище, де можна експериментувати з моделями в реальному часі, тестувати затримку, якість розпізнавання, поведінку інструментів і голосу без необхідності одразу вбудовувати все в продакшн‑систему.
Для тих, хто хоче повторити або розширити демо з Build Hour, OpenAI підтримує репозиторій Build Hours на GitHub: github.com/openai/build-hours. Там можна знайти приклади коду, які демонструють, як саме організовано виклики інструментів, як модель керує інтерфейсом і як налаштовано голосову взаємодію.
У сукупності ці ресурси показують, що новий стек не обмежується красивими демо. Він задуманий як платформа, на якій можна будувати реальні продукти — від голосових інтерфейсів для розумних пристроїв і мобільних застосунків до внутрішніх інструментів аналітики, фінансових помічників, ігор, коучингових сервісів і голосових відеодзвінків.
Висновок: голос як повноцінний інтерфейс до AGI
Запуск GPT‑Realtime‑2 разом із GPT‑Realtime‑Translate та GPT‑Realtime‑Whisper позначає важливий зсув у розвитку голосових технологій. Якщо раніше голосовий інтерфейс часто сприймався як «надбудова» над текстовими моделями, то тепер він стає повноцінним способом взаємодії з інтелектуальними системами.
Довгий контекст у 128 тисяч токенів, паралельний виклик інструментів, покращене доменне розуміння, збереження контексту між репліками й керована експресивність перетворюють голосового агента на щось ближче до колеги чи асистента, ніж до чат‑бота. У поєднанні з перекладом і стрімінговим розпізнаванням це створює основу для глобальних, багатомовних, «hands‑free» інтерфейсів, які можуть працювати в реальному часі й у складних робочих процесах.
Наскільки швидко бізнес і розробники зможуть перетворити ці можливості на масові продукти — відкрите питання. Але технічний фундамент для голосових систем наступного покоління вже закладено, і GPT‑Realtime‑2 виглядає як одна з перших моделей, що наближає уявлення про «усну AGI» до практичної реальності.


