Розпізнавання мовлення за допомогою штучного інтелекту вступає в нову фазу. Стартап Speechmatics поставив мету, досягнення якої дозволить йому випередити Apple, Google та інших технологічних гігантів. Фахівці стартапу вчать штучний інтелект зрозуміти всі 7000 мов світу.
Розпізнавання людського мовлення було величезним викликом для розробників, і він не вирішений повністю. Ця технологія має наслідки для інтерфейсів «людина-машина» в таких сферах, як робототехніка, автономні транспортні засоби та персональні комп’ютери, і всі вони виграють від комп’ютерів, здатних точно інтерпретувати природну мову.
Зараз розпізнавання мовлення добре працює для невеликої частини населення світу. Адже навчити штучний інтелект розуміти мовлення дорого. Більшість навчальних даних потрібно класифікувати вручну, а це означає, що точність досягається лише для дуже вузького набору сценаріїв.
Speechmatics використовує інший підхід до більш репрезентативного розпізнавання мовлення. На основі наборів даних, використаних у Стенфордському дослідженні «Расові відмінності в розпізнаванні мовлення», Speechmatics зафіксував загальну точність 82,8% для голосів афроамериканців порівняно з Google (68,6%) і Amazon (68,6). Цей рівень точності дорівнює 45% зниженню помилок розпізнавання мовлення – еквівалент трьох слів у середньому реченні.
Стартап піддає штучний інтелект впливу сотень тисяч окремих голосів, використовуючи немарковані, більш репрезентативні голосові дані, які не потребують втручання людини. Це допомогло збільшити охоплення за межі англомовних користувачів.
Наразі механізм розуміє 34 мови, що є невеликою краплею у дуже великому лінгвістичному відрі (у світі розмовляють понад 7000 мовами). Але платформа досягла вражаючих успіхів у розділових знаках, цифрах, валютах і адресах, які традиційно заважають механізмам розпізнавання мовлення.