Фотографії на екрані: комп’ютери бачитимуть їх, як люди

18 Травня 2016

Сьогодні програми при перегляді зображення фокусуються на предметах. Проте незабаром вони можуть навчитися бачити фотографії майже так само, як і люди. Над цим працюють дослідники Microsoft, які намагаються зробити так, щоб комп’ютери розуміли, що відбувається на знімку та які почуття він викликає.

Зараз програми розпізнавання картинок опишуть фотографію, наприклад, чоловіка у костюмі поряд із жінкою в білій довгій сукні як «зображення чоловіка і жінки». Можливо, вони навіть побачать у них нареченого та наречену. Але людина, поглянувши на знімок, скаже, що особи в кадрі виглядають гарно, і у них було красиве весілля.

Господиня собаки пишалася своїм вихованцем

«Створення підписів означає взяти конкретні об’єкти та поєднати їх у словесному описі, – каже дослідник Microsoft Маргарет Мітчелл (Margaret Mitchell). – Це те, що я називаю візуальним оповіданням. Мова йде про виокремлення концептуальних та абстрактних ідей з цих конкретних об’єктів».

Фотографію з людьми в танці комп’ютери сьогодні можуть описати як «група людей, що танцює». Тоді як система візуального оповідання напише, що було багато веселих танців. Про їхнє вбрання сьогодні комп’ютери скажуть, що це зображення костюмів для параду. Система візуального оповідання замість цього скаже, що деякі костюми були дуже яскравими.

Цей дослідницький проект спирається на базу даних Microsoft Sequential Image Narrative Dataset. Він вміє описувати не лише одиночні зображення. Із кількох знімків про подію система може скласти коротку розповідь про те, що відбувається. Цей проект науковці презентують у червні на конференції Асоціації комп’ютерної лінгвістики.

Наступний крок у розпізнаванні зображень
Дослідники кажуть, що візуальне оповідання буде корисним при обміні знімками в соцмережах. Така система швидко створить коротку розповідь про серію фотографій з події. Вона також може бути корисною для людей із вадами зору.

«Є багато речей, які технології розпізнавання зображень роблять прийнятно. Це означає, що ми готові до наступного кроку, – каже доктор наук Університету Карнегі-Меллона Тін-Хао (Кеннет) Хуан (Ting-Hao (Kenneth) Huang). Він співпрацював над проектом у рамках літньої інтернатури Microsoft Research. – Я думаю, комп’ютер може створити відносно просту історію. Такі ми бачимо в книгах для дітей».

«Переклад» зображень у слова
Технології комп’ютерного бачення та обробки мов за останні кілька років стрибнули далеко вперед. Цьому сприяла методика машинного навчання під назвою глибокі нейронні мережі. Ці методи допомогли вченим отримати точніші результати в завданнях розпізнавання слів та об’єктів на зображеннях.

Щоб отримати систему візуального оповідання, науковці використали глибокі нейронні мережі. Ця методика дозволяє переводити одну послідовність даних в іншу, і тому вона використовується в автоматичних перекладачах. Її також можна використовувати для конвертації зображень у слова.

Щоб комп’ютери навчилися описувати картинки, їм необхідно спершу обробити набір тренувальної інформації. Для цього спеціальні робітники вручну описували наявний набір зображень. Інструмент готували так, щоб він враховував особливості тієї чи іншої мови. Потім дослідники підготували окремий набір тестів, щоб можна було порівняти якість опису машини та людей.

Проект поки знаходиться на ранній стадії, і дослідники кажуть, що над ним треба ще багато працювати. Однак, за їхніми словами, це ще один прорив у практичному використанні машинного навчання. Ця робота над системою візуального оповідання наближує штучний інтелект до аналізу особливостей реального світу, як це роблять люди. «Зображення варте тисячі слів. Це не лише три теги», – говорить Мітчелл.

«Ми лише торкнулися поверхні, – доповнює майбутній доктор наук Університету Рочестера Насрін Мостафазадех (Nasrin Mostafazadeh). – Це не те, що ми справді робимо його схожим на людське сприйняття. Ми лише намагаємося так зробити».

За матеріалами: Microsoft Daily

Теги
Технології

847

Фотографії на екрані: комп’ютери бачитимуть їх, як люди

Представлено планшет Getac EX80 з захистом корпусу за стандартами MIL-STD 810G і IP67

Смартфон Huawei Nova 3e отримав фронтальну камеру на 24 Мп, 8-ядерний чіп і Android 8.0

Як запускати додатки зі шторки Android

Motorola почне продаж нової бездротової камери ORBIT

Vodafone

Понад 25 ТБ даних у перший день 5G у Києві

Future You: у Києві відкрили інтерактивну AI-інсталяцію, де можна зустрітися із собою з майбутнього

Vodafone запустив 5G у всіх районах Києва

200 тисяч клієнтів протестували 5G у Харкові

Vodafone Україна побудує надсучасний підземний дата-центр

Статті

Опитування на телефоні: як обіцяють заробіток, а платять копійки

Виробники використовують одноразові батарейки задля економії на виготовленні акумуляторів

Космічне кільце на Місяці: нескінченна енергія на Землю чи чергова мрія?

Конкуренція мільярдерів на орбіті: хто першим висадить людей на Місяць

П’ять популярних аксесуарів для смартфонів, що лише марнують гроші та створюють ілюзію безпеки

AI-відновлення фото підміняє обличчя родичів, знищуючи справжню сімейну історію

Як виходить, що ви обігнали когось на дорозі, а він знову з’являється попереду: вчені пояснили невидиму силу статистики

ПОРАДИ

Як заборонити Instagram використовувати дані про ваші покупки для показу реклами

Як зберігати місця в Google Картах для спрощеного планування подорожей

Як отримати манікюр з ефектом котячого ока за допомогою зарядки Apple Watch

СТАТТІ

Опитування на телефоні: як обіцяють заробіток, а платять копійки

Виробники використовують одноразові батарейки задля економії на виготовленні акумуляторів

Космічне кільце на Місяці: нескінченна енергія на Землю чи чергова мрія?

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Фотографії на екрані: комп’ютери бачитимуть їх, як люди

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ