Исследователи Google разработали новый искусственный интеллект (ИИ, AI), который может создавать реалистичные видео людей, говорящих, жестикулирующих и двигающихся — только по одной неподвижной фотографии. Технология, которая называется VLOGGER, генерирует поразительно реалистичный видеоматериал, открывая ряд потенциальных применений, а также вызывая беспокойство по поводу дипфейков и дезинформации.
Описанная в исследовательской статье под названием «VLOGGER: Мультимодальная диффузия для синтеза воплощенного аватара», модель AI может принимать фото человека и аудиозапись как входные данные, а затем выводить видео, показывая человека, который говорит слова и делает соответствующую мимику, движения головой и жесты руками . Видео не идеальны, с некоторыми артефактами, но представляют собой значительный скачок в возможности анимации неподвижных изображений.
Исследователи во главе с Энриком Короной из Google Research использовали тип модели машинного обучения под названием диффузионные модели для достижения нового результата. Диффузионные модели недавно показали отличную производительность в создании очень реалистичных изображений из текстовых описаний. Расширив их в область видео и обучив их на огромном новом наборе данных, команда смогла создать систему искусственного интеллекта, которая может оживлять фотографии очень убедительным способом.
Ключевым фактором стала подготовка огромного нового набора данных под названием MENTOR, содержащая более 800 000 разнообразных идентификаторов и 2200 часов видео — на порядок больше, чем было доступно ранее. Это позволило VLOGGER научиться создавать видео людей разной этнической принадлежности, возраста, одежды, поз и свиты без предвзятости.
Технология открывает ряд убедительных вариантов использования. VLOGGER может автоматически дублировать видео на других языках, просто заменяя звуковую дорожку, плавно редактировать и заполнять отсутствующие кадры в видео, а также создавать полное видео человека с одной фотографии. Эту технологию можно использовать для создания фотореалистичных аватаров для виртуальной реальности и игр. И это может позволить создавать виртуальные помощники и чат-боты на основе искусственного интеллекта, которые будут более привлекательными и выразительными.
Google рассматривает VLOGGER как шаг к «воплощенным разговорным агентам», которые могут общаться с людьми естественным путем посредством языка, жестов и зрительного контакта.
Однако у этой технологии также есть потенциал для злоупотребления, например, для создания дипфейков — синтетических медиафайлов, в которых человека в видеозаписи заменяют на кого-то другого. Поскольку созданные искусственным интеллектом видео становятся более реалистичными и более легкими для создания, это может обострить проблемы, связанные с дезинформацией и цифровыми подделками.
Впечатляющий, VLOGGER все же имеет ограничение. Сгенерированные видеоролики относительно короткие и имеют статический фон. Люди не передвигаются в 3D-среде. Их манеры и речи, хоть и реалистичные, все же отличаются от манеры настоящих людей.
VLOGGER дает раннее представление об этом будущем. Это мощная демонстрация быстрого прогресса искусственного интеллекта и признак возрастающих трудностей, с которыми мы столкнемся, различая, что подлинно, а что подделка.