П’ятниця, 10 Травня, 2024

Google представив VLOGGER – штучний інтелект, який може оживляти по фотографії

Дослідники Google розробили новий штучний інтелект (ШІ, AI), який може створювати реалістичні відео людей, які розмовляють, жестикулюють і рухаються — лише з однієї нерухомої фотографії. Технологія, яка називається VLOGGER, генерує вражаюче реалістичний відеоматеріал, відкриваючи низку потенційних застосувань, а також викликаючи занепокоєння щодо дипфейків і дезінформації.

Описана в дослідницькій статті під назвою «VLOGGER: Мультимодальна дифузія для синтезу втіленого аватару», модель AI може приймати фото людини та аудіозапис як вхідні дані, а потім виводити відео, показуючи людину, яка говорить слова і робить відповідну міміку, рухи головою та жести руками. Відео не ідеальні, з деякими артефактами, але являють собою значний стрибок у можливості анімації нерухомих зображень.

Дослідники на чолі з Енріком Короною з Google Research використали тип моделі машинного навчання під назвою дифузійні моделі, щоб досягти нового результату. Дифузійні моделі нещодавно показали чудову продуктивність у створенні дуже реалістичних зображень із текстових описів. Розширивши їх у сферу відео та навчивши їх на величезному новому наборі даних, команда змогла створити систему штучного інтелекту, яка може оживляти фотографії дуже переконливим способом.

Ключовим фактором стала підготовка величезного нового набору даних під назвою MENTOR, який містить понад 800 000 різноманітних ідентифікаторів і 2200 годин відео — на порядок більше, ніж було доступно раніше. Це дозволило VLOGGER навчитися створювати відео людей різної етнічної приналежності, віку, одягу, поз і оточення без упередженості.

Технологія відкриває ряд переконливих варіантів використання. VLOGGER може автоматично дублювати відео іншими мовами, просто замінюючи звукову доріжку, плавно редагувати та заповнювати відсутні кадри у відео, а також створювати повне відео людини з однієї фотографії. Цю технологію також можна використовувати для створення фотореалістичних аватарів для віртуальної реальності та ігор. І це може дозволити створювати віртуальних помічників і чат-ботів на основі штучного інтелекту, які будуть більш привабливими та виразними.

Google розглядає VLOGGER як крок до «втілених розмовних агентів», які можуть спілкуватися з людьми природним шляхом за допомогою мови, жестів і зорового контакту.

Однак ця технологія також має потенціал для зловживання, наприклад, для створення дипфейків — синтетичних медіафайлів, у яких людину у відеозаписі замінюють на когось іншого. Оскільки створені штучним інтелектом відео стають більш реалістичними та легшими для створення, це може загострити проблеми, пов’язані з дезінформацією та цифровими підробками.

Вражаючий, VLOGGER все ж має обмеження. Згенеровані відео відносно короткі та мають статичний фон. Люди не пересуваються в 3D-середовищі. Їхні манери та мовлення, хоч і реалістичні, все ж таки відрізняються від манери справжніх людей.

VLOGGER дає раннє уявлення про це майбутнє. Це потужна демонстрація швидкого прогресу штучного інтелекту та ознака зростаючих труднощів, з якими ми зіткнемося, розрізняючи, що є справжнім, а що підробкою.

 

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Євген пише для TechToday з 2012 року. Інженер за освітою. Захоплюється реставрацією старих автомобілів.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися