Понедельник, 12 мая, 2025

Новая система перевода с помощью искусственного интеллекта для наушников клонирует несколько голосов одновременно

Представьте, что вы идете с группой друзей, которые переключаются на разные языки, которых вы не понимаете, но странным образом вы все равно способны понимать, о чем они говорят. Этот сценарий послужил источником вдохновения для новой системы наушников с искусственным интеллектом, которая переводит речь нескольких людей одновременно в режиме реального времени.

Система, называемая пространственным переводом, отслеживает направление и вокальные характеристики каждого говорящего, помогая человеку в наушниках определить, кто что говорит в групповой обстановке.

«В мире так много умных людей, и языковой барьер мешает им уверенно общаться», — говорит Шьям Голлакота, профессор Вашингтонского университета, работавший над проектом. «У моей мамы такие невероятные идеи, когда она говорит на телугу, но ей так трудно общаться с людьми в США, когда она приезжает из Индии. Мы думаем, что такая система может изменить жизнь таких людей, как она».

Хотя существует множество других систем перевода с использованием искусственного интеллекта в реальном времени, таких как система, работающая на умных очках Ray-Ban от Meta, они ориентированы на одного говорящего, а не на нескольких говорящих одновременно, и обеспечивают автоматизированный перевод, звучащий как робот.

Новая система предназначена для работы с существующими готовыми наушниками с шумоподавлением, оснащенными микрофонами, подключенными к ноутбуку на чипе Apple M2, который может поддерживать нейронные сети. Такой же чип присутствует и в гарнитуре Apple Vision Pro . Исследование было представлено на конференции ACM CHI по человеческому фактору в вычислительных системах в Иокогаме, Япония, в этом месяце.

За последние несколько лет крупные языковые модели привели к значительным улучшениям в переводе языка. В результате перевод между языками, для которых доступно большое количество обучающих данных (например, четырьмя языками, используемыми в этом исследовании), близок к идеальному в таких приложениях, как Google Translate или в ChatGPT. Но он по-прежнему не работает плавно и мгновенно на многих языках.

К этой цели стремятся многие компании, говорит Алина Караканта, доцент Лейденского университета в Нидерландах, которая изучает компьютерную лингвистику и не участвовала в проекте. «Я чувствую, что это полезное приложение. Оно может помочь людям», — говорит она.

Пространственный перевод речи состоит из двух моделей искусственного интеллекта, первая из которых делит пространство, окружающее человека в наушниках, на небольшие области и использует нейронную сеть для поиска потенциальных говорящих и точного определения их направления.

Затем вторая модель переводит слова с французского, немецкого или испанского на английский текст, используя общедоступные наборы данных. Та же модель получает уникальные характеристики и эмоциональный оттенок голоса каждого говорящего, такие как высота звука и амплитуда, и применяет эти свойства к тексту, по сути создавая «клонированный» голос.

Это означает, что когда переведенная версия слов говорящего передается владельцу наушников через несколько секунд, она звучит так, как будто исходит со стороны говорящего, и голос звучит очень похоже на голос самого говорящего, а не на звук робота-компьютера.

Команда Голлакоты в настоящее время сосредоточена на сокращении времени, необходимого для запуска перевода с помощью искусственного интеллекта после того, как говорящий что-то скажет, что позволит обеспечить более естественное звучание разговоров между людьми, говорящими на разных языках.

Это остается серьезной проблемой, потому что скорость, с которой система искусственного интеллекта может переводить с одного языка на другой, зависит от структуры языков. Из трех языков, на которых был обучен пространственный перевод речи, система, скорее всего, перевела французский на английский, затем испанский, а затем немецкий, что отражает то, что немецкий, в отличие от других языков, помещает глаголы предложения и большую часть его значения в конец, а не начало.

Уменьшение задержки может сделать переводы менее точными. Ведь чем дольше вы ждете перед переводом, тем больше у вас контекста и тем качественнее будет перевод.

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Евгений пишет для TechToday с 2012 года. По образованию инженер,. Увлекается реставрацией старых автомобилей.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті