nVidia продемонстрировала новую систему искусственного интеллекта, способную по текстовому описанию сгенерировать небольшой видеоролик. Особенность новинки в том, что генерируется видео в высоком разрешении 1280×2048 пикселей. При этом пользователю нужно написать несколько фраз текста.
Представленный на конференции IEEE по компьютерному видению и распознаванию образов 2023 года, новый видеогенератор nVidia начинается как модель латентной диффузии (LDM), обученный генерировать изображения из текста.
Следующим шагом этот генератор пытается анимировать изображение с помощью своих знаний, полученных из тысяч проанализированных существующих видео. Это добавляет время как отслеживаемое измерение и LDM оценивает, что вероятно изменится в каждой области изображения в течение определенного периода времени. Он создает несколько ключевых кадров в течение последовательности, а затем использует другой LDM для интерполяции кадров между ключевыми кадрами, создавая последовательность изображений одинакового качества, что для человека выглядит как видеоролик.
Команда использовала систему для создания множества образцов видео с разрешением 1280 x 2048 пикселей прямо из текстовых подсказок. Каждое из этих видео содержит 113 кадров и воспроизводится со скоростью 24 кадра в секунду, поэтому они длятся примерно 4,7 секунды.
Они все еще явно созданы искусственным интеллектом, и все еще можно обнаружить много странных ошибок. Также очевидно, где у многих видео имеются ключевые кадры с некоторым удивительным ускорением и замедлением движения вокруг них.Но по чистому качеству изображения это невероятный шаг вперед по сравнению с тем, что демонстрировали решение многомесячной давности. Вот, например, как выпущенный несколько месяцев назад искусственный интеллект ModelScope AI сгенерировал видео «Уилл Смит ест спагетти»:
AI-generated video of Will Smith attempting to eat spaghetti without making a mess astounds with comedic horror
Open source «text2video» ModelScope AI made the viral sensation possible, but it seems like poor Will Smith couldn’t catch a break — or a noodle. ?? pic.twitter.com/fDbUS6FlQx
— neonpulse (@neonpulsedaily) April 1, 2023
Учитывая, как эта система разработана, nVidia может позволить пользователям загружать собственные изображения или изображения с любого генератора искусственного интеллекта и превратить их в видео.
Это может создать невероятно встроенные формы развлечений. Языковая модель может написать детскую книгу, а ее иллюстрации создаст генератор изображений. Затем подобная модель может взять текст каждой страницы и использовать его для анимации иллюстраций, а другие искусственные интеллекты будут создавать реалистичные звуковые эффекты, голоса и точно настроенные музыкальные саундтреки. Детская книга становится короткометражным фильмом, идеально сохраняя визуальное чувство иллюстраций.
Сейчас nVidia рассматривает эту систему как исследовательский проект, а не потребительский продукт.