Компьютеры достигли человеческого уровня в распознавании слов

фактором для увеличения качества распознавания стала система кратковременной и долговременной памяти на основе диалоговых сессий

Компьютерные технологии достигли новой метки развития – они сравнялись с людьми в распознавании текстов на слух. Такой результат показала система распознавания речи от Microsoft. Она слышит тексты почти идеально – уровень погрешностей составляет лишь 5,1%. Это результат профессиональных стенографистов.

распознавании

В прошлом году эта система распознавания от Microsoft демонстрировала несколько худший результат – ее уровень составлял 5,9% неправильно понятых слов. Подобную цифру демонстрируют обычные люди, когда им нужно перевести аудиозапись чьего-то разговора в текстовый вид.

Для тестирования специалисты используют базу данных Switchboard – это пакет записанных телефонных разговоров. Последние 20 лет его используют как стандартное мерило качества распознавания текстов на разнообразные тематики, включая политику и спорт.

Нынешний результат системы Microsoft на 12% лучше, чем в прошлом году. Чтобы достичь его, исследователи ввели ряд улучшений в блоки акустической нейросети и моделей языка. Кроме этого, специалисты расширили словарный запас системы с 30 тысяч слов до 165 тысяч.

Главным фактором для увеличения качества распознавания стала система кратковременной и долговременной памяти на основе диалоговых сессий. Такой подход позволил при распознавании текстов использовать все предыдущие разговоры как историю для увеличения качества узнавания отдельных фраз. Благодаря этому система Microsoft может понимать, что она слушает разговор о спорте, и использовать соответствующие тематике варианты перевода.

Разработчики отмечают, что в сфере распознавания текстов еще много работы. Нужно совершенствовать качество распознавания в сложных условиях, таких как громкие помещения, переполненные шумом, а также искаженные акцентом фразы.

Не менее важной задачей, говорят разработчики, является обучение компьютеров не просто записывать услышанные слова в виде текста, а понимать значение и намерения услышанных фраз. Переход от простого распознавания к пониманию исследователи считают следующим рубежом технологий распознавания речи.

Система распознавания речи Microsoft уже работает в таких сервисах, как Cortana и Speech Translator.

Предыдущий рекорд в технологиях распознавания речи принадлежит IBM. Весной IBM удалось снизить уровень ошибок в компьютерном распознавании речи с 6,9% до 5,5%, а до этого рекорд принадлежал Microsoft (5,9%).

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я