Фотографії на екрані: комп’ютери бачитимуть їх, як люди

18 Травня 2016

Сьогодні програми при перегляді зображення фокусуються на предметах. Проте незабаром вони можуть навчитися бачити фотографії майже так само, як і люди. Над цим працюють дослідники Microsoft, які намагаються зробити так, щоб комп’ютери розуміли, що відбувається на знімку та які почуття він викликає.

Зараз програми розпізнавання картинок опишуть фотографію, наприклад, чоловіка у костюмі поряд із жінкою в білій довгій сукні як «зображення чоловіка і жінки». Можливо, вони навіть побачать у них нареченого та наречену. Але людина, поглянувши на знімок, скаже, що особи в кадрі виглядають гарно, і у них було красиве весілля.

Господиня собаки пишалася своїм вихованцем

«Створення підписів означає взяти конкретні об’єкти та поєднати їх у словесному описі, – каже дослідник Microsoft Маргарет Мітчелл (Margaret Mitchell). – Це те, що я називаю візуальним оповіданням. Мова йде про виокремлення концептуальних та абстрактних ідей з цих конкретних об’єктів».

Фотографію з людьми в танці комп’ютери сьогодні можуть описати як «група людей, що танцює». Тоді як система візуального оповідання напише, що було багато веселих танців. Про їхнє вбрання сьогодні комп’ютери скажуть, що це зображення костюмів для параду. Система візуального оповідання замість цього скаже, що деякі костюми були дуже яскравими.

Цей дослідницький проект спирається на базу даних Microsoft Sequential Image Narrative Dataset. Він вміє описувати не лише одиночні зображення. Із кількох знімків про подію система може скласти коротку розповідь про те, що відбувається. Цей проект науковці презентують у червні на конференції Асоціації комп’ютерної лінгвістики.

Наступний крок у розпізнаванні зображень
Дослідники кажуть, що візуальне оповідання буде корисним при обміні знімками в соцмережах. Така система швидко створить коротку розповідь про серію фотографій з події. Вона також може бути корисною для людей із вадами зору.

«Є багато речей, які технології розпізнавання зображень роблять прийнятно. Це означає, що ми готові до наступного кроку, – каже доктор наук Університету Карнегі-Меллона Тін-Хао (Кеннет) Хуан (Ting-Hao (Kenneth) Huang). Він співпрацював над проектом у рамках літньої інтернатури Microsoft Research. – Я думаю, комп’ютер може створити відносно просту історію. Такі ми бачимо в книгах для дітей».

«Переклад» зображень у слова
Технології комп’ютерного бачення та обробки мов за останні кілька років стрибнули далеко вперед. Цьому сприяла методика машинного навчання під назвою глибокі нейронні мережі. Ці методи допомогли вченим отримати точніші результати в завданнях розпізнавання слів та об’єктів на зображеннях.

Щоб отримати систему візуального оповідання, науковці використали глибокі нейронні мережі. Ця методика дозволяє переводити одну послідовність даних в іншу, і тому вона використовується в автоматичних перекладачах. Її також можна використовувати для конвертації зображень у слова.

Щоб комп’ютери навчилися описувати картинки, їм необхідно спершу обробити набір тренувальної інформації. Для цього спеціальні робітники вручну описували наявний набір зображень. Інструмент готували так, щоб він враховував особливості тієї чи іншої мови. Потім дослідники підготували окремий набір тестів, щоб можна було порівняти якість опису машини та людей.

Проект поки знаходиться на ранній стадії, і дослідники кажуть, що над ним треба ще багато працювати. Однак, за їхніми словами, це ще один прорив у практичному використанні машинного навчання. Ця робота над системою візуального оповідання наближує штучний інтелект до аналізу особливостей реального світу, як це роблять люди. «Зображення варте тисячі слів. Це не лише три теги», – говорить Мітчелл.

«Ми лише торкнулися поверхні, – доповнює майбутній доктор наук Університету Рочестера Насрін Мостафазадех (Nasrin Mostafazadeh). – Це не те, що ми справді робимо його схожим на людське сприйняття. Ми лише намагаємося так зробити».

За матеріалами: Microsoft Daily

Теги
Технології

506

Фотографії на екрані: комп’ютери бачитимуть їх, як люди

Додатки на Android будуть «падати» більш інформативно

CPU-Z поможет узнать полные характеристики Android

Для Олімпіади 2020 року перероблять 5 млн гаджетів

Відбувся офіційний анонс смартфона Motorola Moto X4: Snapdragon 630, Android 7.1 і корпус із захистом IP68

Vodafone

Vodafone у 1 півріччі 2025 року інвестував понад 3,5 млрд грн в економіку України

Військові отримали обладнання для рятівного переливання крові на догоспітальному етапі

Vodafone та U&WE HUB запустили освітню програму «Твій бізнес в телефоні»

Школа Vodafone Big data Lab підготувала нове покоління Big Data аналітиків

Vodafone Україна та КАІ представили AI-аватарку для абітурієнтів

Статті

Огляд Asus Rog Zephyrus G16: вбивчо ігровий ноутбук

Публікація анонімного любителя аніме створила задачу, на яку математики ледве змогли відповісти

Чи повинен ШІ мати тіло, щоб наблизитися до людського інтелекту?

Топ корупція на базі цензури: як влада Туркменістану заборонила доступ до сайтів та почала продавати засоби обходу

Огляд Poco M7 Pro 5G: купуйте, лише якщо вам потрібен роз’єм навушників та microSD

Купівля Pixel 10 = Голос за посилення контролю Google — Ось чому

Бульбашка штучного інтелекту ось-ось лусне – перші ознаки вже в повітрі

ПОРАДИ

Як найбільш зручно керувати файлами на Android – кращий безкоштовний файловий менеджер

Як перевірити ресурс та стан диску SSD — ось про що говорять цифри

Як створити заповнювані форми у Word

СТАТТІ

Огляд Asus Rog Zephyrus G16: вбивчо ігровий ноутбук

Публікація анонімного любителя аніме створила задачу, на яку математики ледве змогли відповісти

Чи повинен ШІ мати тіло, щоб наблизитися до людського інтелекту?

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Фотографії на екрані: комп’ютери бачитимуть їх, як люди

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ