Новая система перевода с помощью искусственного интеллекта для наушников клонирует несколько голосов одновременно

12 мая 2025

Представьте, что вы идете с группой друзей, которые переключаются на разные языки, которых вы не понимаете, но странным образом вы все равно способны понимать, о чем они говорят. Этот сценарий послужил источником вдохновения для новой системы наушников с искусственным интеллектом, которая переводит речь нескольких людей одновременно в режиме реального времени.

Система, называемая пространственным переводом, отслеживает направление и вокальные характеристики каждого говорящего, помогая человеку в наушниках определить, кто что говорит в групповой обстановке.

«В мире так много умных людей, и языковой барьер мешает им уверенно общаться», — говорит Шьям Голлакота, профессор Вашингтонского университета, работавший над проектом. «У моей мамы такие невероятные идеи, когда она говорит на телугу, но ей так трудно общаться с людьми в США, когда она приезжает из Индии. Мы думаем, что такая система может изменить жизнь таких людей, как она».

Хотя существует множество других систем перевода с использованием искусственного интеллекта в реальном времени, таких как система, работающая на умных очках Ray-Ban от Meta, они ориентированы на одного говорящего, а не на нескольких говорящих одновременно, и обеспечивают автоматизированный перевод, звучащий как робот.

Новая система предназначена для работы с существующими готовыми наушниками с шумоподавлением, оснащенными микрофонами, подключенными к ноутбуку на чипе Apple M2, который может поддерживать нейронные сети. Такой же чип присутствует и в гарнитуре Apple Vision Pro . Исследование было представлено на конференции ACM CHI по человеческому фактору в вычислительных системах в Иокогаме, Япония, в этом месяце.

За последние несколько лет крупные языковые модели привели к значительным улучшениям в переводе языка. В результате перевод между языками, для которых доступно большое количество обучающих данных (например, четырьмя языками, используемыми в этом исследовании), близок к идеальному в таких приложениях, как Google Translate или в ChatGPT. Но он по-прежнему не работает плавно и мгновенно на многих языках.

К этой цели стремятся многие компании, говорит Алина Караканта, доцент Лейденского университета в Нидерландах, которая изучает компьютерную лингвистику и не участвовала в проекте. «Я чувствую, что это полезное приложение. Оно может помочь людям», — говорит она.

Пространственный перевод речи состоит из двух моделей искусственного интеллекта, первая из которых делит пространство, окружающее человека в наушниках, на небольшие области и использует нейронную сеть для поиска потенциальных говорящих и точного определения их направления.

Затем вторая модель переводит слова с французского, немецкого или испанского на английский текст, используя общедоступные наборы данных. Та же модель получает уникальные характеристики и эмоциональный оттенок голоса каждого говорящего, такие как высота звука и амплитуда, и применяет эти свойства к тексту, по сути создавая «клонированный» голос.

Это означает, что когда переведенная версия слов говорящего передается владельцу наушников через несколько секунд, она звучит так, как будто исходит со стороны говорящего, и голос звучит очень похоже на голос самого говорящего, а не на звук робота-компьютера.

Команда Голлакоты в настоящее время сосредоточена на сокращении времени, необходимого для запуска перевода с помощью искусственного интеллекта после того, как говорящий что-то скажет, что позволит обеспечить более естественное звучание разговоров между людьми, говорящими на разных языках.

Это остается серьезной проблемой, потому что скорость, с которой система искусственного интеллекта может переводить с одного языка на другой, зависит от структуры языков. Из трех языков, на которых был обучен пространственный перевод речи, система, скорее всего, перевела французский на английский, затем испанский, а затем немецкий, что отражает то, что немецкий, в отличие от других языков, помещает глаголы предложения и большую часть его значения в конец, а не начало.

Уменьшение задержки может сделать переводы менее точными. Ведь чем дольше вы ждете перед переводом, тем больше у вас контекста и тем качественнее будет перевод.

Теги
Технологии

119

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Коментуйте, будь-ласка!

Будь ласка введіть ваше ім'я

Ви ввели некорректний Email

Ваш Email

Новая система перевода с помощью искусственного интеллекта для наушников клонирует несколько голосов одновременно

Рейтинг браузеров по уровню шпионажа: самым безопасным оказался малоизвестный Brave

Apple готовит анонс iPhone с OLED-дисплеем на 6,5 дюймов

Кабели USB-C будут разгоняться до 80 Гбит/с с новым USB4 2.0

Google официально объявил о запуске темного режима Gmail на Android

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Школа Vodafone Big Data Lab подготовила новое поколение Big Data аналитиков

Vodafone и КАИ запускают магистратуру по обработке больших данных

В Киеве заработало 5G: где сеть развернута

Национальная полиция Украины и Vodafone объединились для поиска пропавших детей

Vodafone запускает контрактные тарифы FLEXX для свободного общения в Украине и ЕС

Статті

Искусственный интеллект не справился с раздачей денег: результаты эксперимента в Амстердаме

День, когда кто-то взломал основу основ Bitcon и сделал из 21 млн 184 000 млн криптомонет

Эти 7 смартфонов Android не стоит покупать. Вот почему

Что происходит, когда люди не понимают, как работает искусственный интеллект

Нейробиологические компьютеры могут стать будущим искусственного интеллекта

Tecno Spark 40 Pro+ : не уступает более дорогим конкурентам при сохранении низкой цены

Разработчики ИИ ищут психиатра для искусственного интеллекта

ПОРАДИ

Как сделать анимированные обои на Windows с помощью YouTube или GIF

Как очистить кеш и данные приложений с помощью ADB

Как предотвратить растрескивание оболочки USB-кабеля с помощью шариковой ручки

СТАТТІ

Искусственный интеллект не справился с раздачей денег: результаты эксперимента в Амстердаме

День, когда кто-то взломал основу основ Bitcon и сделал из 21 млн 184 000 млн криптомонет

Эти 7 смартфонов Android не стоит покупать. Вот почему

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Новая система перевода с помощью искусственного интеллекта для наушников клонирует несколько голосов одновременно

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ