Понеділок, 7 Жовтня, 2024

Комп’ютери досягли людського рівня в розпізнаванні слів

Комп’ютерні технології досягли нової позначки розвитку – вони зрівнялися з людьми в розпізнаванні текстів на слух. Такий результат показала система розпізнавання мови від Microsoft. Вона чує тексти майже ідеально – рівень похибок складає лише 5,1%. Це результат професійних стенографістів.

розпізнаванні

Минулого року ця система розпізнавання від Microsoft демонструвала дещо гірший результат – її рівень складав 5,9% неправильно зрозумілих слів. Подібну цифру демонструють звичайні люди, коли їм треба перевести аудіозапис чиєїсь розмови у текстовий вигляд.

Для тестування фахівці використовують базу даних Switchboard – це пакет записаних телефонних розмов. Останні 20 років його використовують як стандартне мірило якості розпізнавання текстів на різноманітні тематики, з політикою та спортом включно.

Нинішній результат системи Microsoft на 12% кращий, ніж минулого року. Щоб досягти його, дослідники запровадили певні поліпшення у блоки акустичної нейромережі та моделей мови. Окрім цього, фахівці розширили словниковий запас системи з 30 тисяч слів до 165 тисяч.

Головним фактором для збільшення якості розпізнавання стала система короткочасної та довгострокової пам’яті на основі діалогових сесій. Такий підхід дозволив при розпізнаванні текстів використовувати всі попередні розмови як історію для збільшення якості впізнавання окремих фраз. Завдяки цьому система Microsoft може розуміти, що вона слухає розмову про спорт, і використовувати відповідні тематиці варіанти перекладу.

Розробники відзначають, що у сфері розпізнавання текстів ще багато роботи. Потрібно вдосконалювати якість розпізнавання у складних умовах, таких як гучні приміщення, переповнені шумом, а також спотворені акцентом фрази.

Не менш важливим завданням, кажуть розробники, є навчання комп’ютерів не просто записувати почуті слова у вигляді тексту, а розуміти значення та наміри почутих фраз. Перехід від простого розпізнавання до розуміння дослідники вважають наступним рубежем технологій розпізнавання мови.

Система розпізнавання мови Microsoft вже працює в таких сервісах, як Cortana та Speech Translator.

Попередній рекорд у технологіях розпізнавання мовлення належить IBM. Навесні IBM вдалося знизити рівень помилок у комп’ютерному розпізнавання мовлення з 6,9% до 5,5%, а до цього рекорд належав Microsoft (5,9%).

Євген
Євген
Євген пише для TechToday з 2012 року. Інженер за освітою. Захоплюється реставрацією старих автомобілів.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися