Представьте, что вы идете с группой друзей, которые переключаются на разные языки, которых вы не понимаете, но странным образом вы все равно способны понимать, о чем они говорят. Этот сценарий послужил источником вдохновения для новой системы наушников с искусственным интеллектом, которая переводит речь нескольких людей одновременно в режиме реального времени.
Система, называемая пространственным переводом, отслеживает направление и вокальные характеристики каждого говорящего, помогая человеку в наушниках определить, кто что говорит в групповой обстановке.
«В мире так много умных людей, и языковой барьер мешает им уверенно общаться», — говорит Шьям Голлакота, профессор Вашингтонского университета, работавший над проектом. «У моей мамы такие невероятные идеи, когда она говорит на телугу, но ей так трудно общаться с людьми в США, когда она приезжает из Индии. Мы думаем, что такая система может изменить жизнь таких людей, как она».
Хотя существует множество других систем перевода с использованием искусственного интеллекта в реальном времени, таких как система, работающая на умных очках Ray-Ban от Meta, они ориентированы на одного говорящего, а не на нескольких говорящих одновременно, и обеспечивают автоматизированный перевод, звучащий как робот.
Новая система предназначена для работы с существующими готовыми наушниками с шумоподавлением, оснащенными микрофонами, подключенными к ноутбуку на чипе Apple M2, который может поддерживать нейронные сети. Такой же чип присутствует и в гарнитуре Apple Vision Pro . Исследование было представлено на конференции ACM CHI по человеческому фактору в вычислительных системах в Иокогаме, Япония, в этом месяце.
За последние несколько лет крупные языковые модели привели к значительным улучшениям в переводе языка. В результате перевод между языками, для которых доступно большое количество обучающих данных (например, четырьмя языками, используемыми в этом исследовании), близок к идеальному в таких приложениях, как Google Translate или в ChatGPT. Но он по-прежнему не работает плавно и мгновенно на многих языках.
К этой цели стремятся многие компании, говорит Алина Караканта, доцент Лейденского университета в Нидерландах, которая изучает компьютерную лингвистику и не участвовала в проекте. «Я чувствую, что это полезное приложение. Оно может помочь людям», — говорит она.
Пространственный перевод речи состоит из двух моделей искусственного интеллекта, первая из которых делит пространство, окружающее человека в наушниках, на небольшие области и использует нейронную сеть для поиска потенциальных говорящих и точного определения их направления.
Затем вторая модель переводит слова с французского, немецкого или испанского на английский текст, используя общедоступные наборы данных. Та же модель получает уникальные характеристики и эмоциональный оттенок голоса каждого говорящего, такие как высота звука и амплитуда, и применяет эти свойства к тексту, по сути создавая «клонированный» голос.
Это означает, что когда переведенная версия слов говорящего передается владельцу наушников через несколько секунд, она звучит так, как будто исходит со стороны говорящего, и голос звучит очень похоже на голос самого говорящего, а не на звук робота-компьютера.
Команда Голлакоты в настоящее время сосредоточена на сокращении времени, необходимого для запуска перевода с помощью искусственного интеллекта после того, как говорящий что-то скажет, что позволит обеспечить более естественное звучание разговоров между людьми, говорящими на разных языках.
Это остается серьезной проблемой, потому что скорость, с которой система искусственного интеллекта может переводить с одного языка на другой, зависит от структуры языков. Из трех языков, на которых был обучен пространственный перевод речи, система, скорее всего, перевела французский на английский, затем испанский, а затем немецкий, что отражает то, что немецкий, в отличие от других языков, помещает глаголы предложения и большую часть его значения в конец, а не начало.
Уменьшение задержки может сделать переводы менее точными. Ведь чем дольше вы ждете перед переводом, тем больше у вас контекста и тем качественнее будет перевод.