Понеділок, 12 Травня, 2025

Нова система перекладу за допомогою штучного інтелекту для навушників клонує кілька голосів одночасно

Уявіть, що ви йдете з групою друзів, які перемикаються на різні мови, яких ви не розумієте, але дивним чином ви все одно здатні розуміти, про що вони говорять. Цей сценарій став джерелом натхнення для нової системи навушників з штучним інтелектом, яка переводить мову декількох людей одночасно в режимі реального часу.

Система, звана Просторовим перекладом, відстежує напрямок та вокальні характеристики кожного мовця, допомагаючи людині в навушниках визначити, хто що говорить в груповий обстановці.

“У світі так багато розумних людей, і мовний бар’єр заважає їм впевнено спілкуватися”, – каже Шьям Голлакота, професор Вашингтонського університету, працював над проектом. “У моєї мами виникають такі неймовірні ідеї, коли вона говорить телугу, але їй так важко спілкуватися з людьми в США, коли вона приїжджає з Індії. Ми думаємо, що така система могла б перетворити життя таких людей, як вона”.

Хоча існує безліч інших систем перекладу з використанням штучного інтелекту в реальному часі, таких як система, що працює на розумних окулярах Ray-Ban від Meta, вони орієнтовані на одного мовця, а не на декількох осіб, що говорять одночасно, і забезпечують автоматизований переклад, що звучить як робот.

Нова система призначена для роботи з існуючими готовими навушниками з шумозаглушенням, оснащеними мікрофонами, підключеними до ноутбука на чипі Apple M2, який може підтримувати нейронні мережі. Такий же чип присутній і в гарнітурі Apple Vision Pro . Дослідження було представлено на конференції ACM CHI з людського фактору в обчислювальних системах в Йокогамі, Японія, в цьому місяці.

За останні кілька років великі мовні моделі призвели до значних поліпшень в перекладі мови. В результаті переклад між мовами, для яких доступна велика кількість навчальних даних (наприклад, чотирма мовами, використаними в цьому дослідженні), близький до ідеального в таких додатках, як Google Translate або в ChatGPT. Але це все ще не працює плавно і миттєво на багатьох мовах.

До цієї мети прагнуть багато компаній, говорить Аліна Караканта, доцент Лейденського університету в Нідерландах, яка вивчає комп’ютерну лінгвістику і не брала участь у проекті. “Я відчуваю, що це корисний додаток. Воно може допомогти людям”, – каже вона.

Просторовий переклад промови складається з двох моделей штучного інтелекту, перша з яких ділить простір, що оточує людину в навушниках, на невеликі області і використовує нейронну мережу для пошуку потенційних мовців і точного визначення їх напрямку.

Потім друга модель перекладає слова з французької, німецької або іспанської на англійський текст, використовуючи загальнодоступні набори даних. Та ж модель отримує унікальні характеристики і емоційний відтінок голосу кожного мовця, такі як висота звуку і амплітуда, і застосовує ці властивості до тексту, по суті створюючи “клонований” голос.

Це означає, що коли перекладена версія слів мовця передається власнику навушників через кілька секунд, вона звучить так, як ніби виходить з боку мовця, і голос звучить дуже схоже на голос самого мовця, а не на звук робота-комп’ютера.

Команда Голлакоти зараз зосереджена на скорочення часу, необхідного для запуску перекладу за допомогою штучного інтелекту після того, як мовець щось скаже, що дозволить забезпечити більш природне звучання розмов між людьми, що говорять на різних мовах.

Це залишається серйозною проблемою, тому що швидкість, з якою система штучного інтелекту може перекладати з однієї мови на іншу, залежить від структури мов. З трьох мов, на яких був навчений просторовий переклад промови, система швидше за все перевела французьку на англійську, потім іспанську, а потім німецьку, що відображає те, що німецька, на відміну від інших мов, поміщає дієслова пропозиції та більшу частину його значення в кінець, а не початок.

Зменшення затримки може зробити переклади менш точним. Адже чим довше ви чекаєте перед перекладом, тим більше у вас контексту і тим якісніше буде переклад.

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Євген пише для TechToday з 2012 року. Інженер за освітою. Захоплюється реставрацією старих автомобілів.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті