Понедельник, 9 декабря, 2024

Уилл Смит ест спагетти, а имперский штурмовик пылесосит на пляже — теперь в кино

nVidia продемонстрировала новую систему искусственного интеллекта, способную по текстовому описанию сгенерировать небольшой видеоролик. Особенность новинки в том, что генерируется видео в высоком разрешении 1280×2048 пикселей. При этом пользователю нужно написать несколько фраз текста.

Представленный на конференции IEEE по компьютерному видению и распознаванию образов 2023 года, новый видеогенератор nVidia начинается как модель латентной диффузии (LDM), обученный генерировать изображения из текста.

Следующим шагом этот генератор пытается анимировать изображение с помощью своих знаний, полученных из тысяч проанализированных существующих видео. Это добавляет время как отслеживаемое измерение и LDM оценивает, что вероятно изменится в каждой области изображения в течение определенного периода времени. Он создает несколько ключевых кадров в течение последовательности, а затем использует другой LDM для интерполяции кадров между ключевыми кадрами, создавая последовательность изображений одинакового качества, что для человека выглядит как видеоролик.

Команда использовала систему для создания множества образцов видео с разрешением 1280 x 2048 пикселей прямо из текстовых подсказок. Каждое из этих видео содержит 113 кадров и воспроизводится со скоростью 24 кадра в секунду, поэтому они длятся примерно 4,7 секунды.

Они все еще явно созданы искусственным интеллектом, и все еще можно обнаружить много странных ошибок. Также очевидно, где у многих видео имеются ключевые кадры с некоторым удивительным ускорением и замедлением движения вокруг них.Но по чистому качеству изображения это невероятный шаг вперед по сравнению с тем, что демонстрировали решение многомесячной давности. Вот, например, как выпущенный несколько месяцев назад искусственный интеллект ModelScope AI сгенерировал видео «Уилл Смит ест спагетти»:

Учитывая, как эта система разработана, nVidia может позволить пользователям загружать собственные изображения или изображения с любого генератора искусственного интеллекта и превратить их в видео.

Это может создать невероятно встроенные формы развлечений. Языковая модель может написать детскую книгу, а ее иллюстрации создаст генератор изображений. Затем подобная модель может взять текст каждой страницы и использовать его для анимации иллюстраций, а другие искусственные интеллекты будут создавать реалистичные звуковые эффекты, голоса и точно настроенные музыкальные саундтреки. Детская книга становится короткометражным фильмом, идеально сохраняя визуальное чувство иллюстраций.

Сейчас nVidia рассматривает эту систему как исследовательский проект, а не потребительский продукт.

Євген
Євген
Евгений пишет для TechToday с 2012 года. По образованию инженер,. Увлекается реставрацией старых автомобилей.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися