Фотографії на екрані: комп’ютери бачитимуть їх, як люди

Сьогодні програми при перегляді зображення фокусуються на предметах. Проте незабаром вони можуть навчитися бачити фотографії майже так само, як і люди. Над цим працюють дослідники Microsoft, які намагаються зробити так, щоб комп’ютери розуміли, що відбувається на знімку та які почуття він викликає.

Зараз програми розпізнавання картинок опишуть фотографію, наприклад, чоловіка у костюмі поряд із жінкою в білій довгій сукні як «зображення чоловіка і жінки». Можливо, вони навіть побачать у них нареченого та наречену. Але людина, поглянувши на знімок, скаже, що особи в кадрі виглядають гарно, і у них було красиве весілля.

Собака готовий до прогулянки
Він чудово провів час
Йому сподобалося на природі
Господиня собаки пишалася своїм вихованцем
Це був гарний день для прогулянок

«Створення підписів означає взяти конкретні об’єкти та поєднати їх у словесному описі, – каже дослідник Microsoft Маргарет Мітчелл (Margaret Mitchell). – Це те, що я називаю візуальним оповіданням. Мова йде про виокремлення концептуальних та абстрактних ідей з цих конкретних об’єктів».

Дослідник Microsoft Маргарет Мітчелл

Фотографію з людьми в танці комп’ютери сьогодні можуть описати як «група людей, що танцює». Тоді як система візуального оповідання напише, що було багато веселих танців. Про їхнє вбрання сьогодні комп’ютери скажуть, що це зображення костюмів для параду. Система візуального оповідання замість цього скаже, що деякі костюми були дуже яскравими.

Цей дослідницький проект спирається на базу даних Microsoft Sequential Image Narrative Dataset. Він вміє описувати не лише одиночні зображення. Із кількох знімків про подію система може скласти коротку розповідь про те, що відбувається. Цей проект науковці презентують у червні на конференції Асоціації комп’ютерної лінгвістики.

Наступний крок у розпізнаванні зображень
Дослідники кажуть, що візуальне оповідання буде корисним при обміні знімками в соцмережах. Така система швидко створить коротку розповідь про серію фотографій з події. Вона також може бути корисною для людей із вадами зору.

«Є багато речей, які технології розпізнавання зображень роблять прийнятно. Це означає, що ми готові до наступного кроку, – каже доктор наук Університету Карнегі-Меллона Тін-Хао (Кеннет) Хуан (Ting-Hao (Kenneth) Huang). Він співпрацював над проектом у рамках літньої інтернатури Microsoft Research. – Я думаю, комп’ютер може створити відносно просту історію. Такі ми бачимо в книгах для дітей».

На параді було весело
На ньому було багато людей
Деякі з костюмів були дуже кольоровими
Учасники були вдягнуті в костюми
Було багато веселих танців

«Переклад» зображень у слова
Технології комп’ютерного бачення та обробки мов за останні кілька років стрибнули далеко вперед. Цьому сприяла методика машинного навчання під назвою глибокі нейронні мережі. Ці методи допомогли вченим отримати точніші результати в завданнях розпізнавання слів та об’єктів на зображеннях.

Щоб отримати систему візуального оповідання, науковці використали глибокі нейронні мережі. Ця методика дозволяє переводити одну послідовність даних в іншу, і тому вона використовується в автоматичних перекладачах. Її також можна використовувати для конвертації зображень у слова.

Щоб комп’ютери навчилися описувати картинки, їм необхідно спершу обробити набір тренувальної інформації. Для цього спеціальні робітники вручну описували наявний набір зображень. Інструмент готували так, щоб він враховував особливості тієї чи іншої мови. Потім дослідники підготували окремий набір тестів, щоб можна було порівняти якість опису машини та людей.

Це був перший день народження малюка
Він зрадів торту
Торт з’їли з апетитом
Діти з’їли багато їжі
Вони купалися в басейні

Проект поки знаходиться на ранній стадії, і дослідники кажуть, що над ним треба ще багато працювати. Однак, за їхніми словами, це ще один прорив у практичному використанні машинного навчання. Ця робота над системою візуального оповідання наближує штучний інтелект до аналізу особливостей реального світу, як це роблять люди. «Зображення варте тисячі слів. Це не лише три теги», – говорить Мітчелл.

«Ми лише торкнулися поверхні, – доповнює майбутній доктор наук Університету Рочестера Насрін Мостафазадех (Nasrin Mostafazadeh). – Це не те, що ми справді робимо його схожим на людське сприйняття. Ми лише намагаємося так зробити».

За матеріалами: Microsoft Daily