Комп’ютери навчилися робити те, що довгий час було притаманно лише людям. Дослідники Microsoft Research створили алгоритми, які дозволяють машинам описувати зображені на фотографіях об’єкти та пояснювати, що вони роблять. З такою розробкою штучний інтелект, який вміє бачити, чути та розуміти, стає ближчим.
«Машину навчили розуміти зображення так, як це робить людина», – пояснює дослідник центру машинного навчання Microsoft Research Сяодонг Хе (Xiaodong He). Наприклад, коли комп’ютеру показують зображення людини за ПК, його система розпізнавання може зрозуміти, що необхідно зосередитися на людині, а не на ПК. При цьому завдяки наявності бороди та вусів алгоритм зможе сказати, хто на фото: чоловік чи жінка.
Робота над подібними системами розпізнавання ведеться вже кілька десятиліть. Однак довгий час дослідникам не вдавалося вирішити це завдання. Прогрес відбувся в останні кілька років після залучення нейронних мереж – обчислювальних елементів, які працюють за тими ж принципами, що і людський мозок. З такою технологією системам розпізнавання зображень вдалося підвищити свою ефективність та робити менше помилок.
Автоматичне розпізнавання зображень ще далеке від ідеальних результатів, але цей напрям швидко став популярним. Ним займаються експерти з університетів та лабораторій у всьому світі, які намагаються розробити найкращий алгоритм.
Вони регулярно змагаються між собою, і одним з останніх таких конкурсів був MS COCO Captioning Challenge 2015. Створені алгоритми спершу конкурують між собою, а наприкінці їхні результати оцінює комісія журі.
Технології розпізнавання контексту фотографій продовжує розвиватися, і дослідники бачать багато можливостей використання подібних інструментів. Подібні розробки можуть слугувати фундаментом для створення більш розвиненого штучного інтелекту. Наприклад, такого, який зможе бути постійно поряд із користувачем, навчатиметься разом з ним та допомагатиме йому в повсякденних речах.
За матеріалами: Microsoft Daily