Уилл Смит ест спагетти, а имперский штурмовик пылесосит на пляже — теперь в кино

25 апреля 2023

nVidia продемонстрировала новую систему искусственного интеллекта, способную по текстовому описанию сгенерировать небольшой видеоролик. Особенность новинки в том, что генерируется видео в высоком разрешении 1280×2048 пикселей. При этом пользователю нужно написать несколько фраз текста.

Представленный на конференции IEEE по компьютерному видению и распознаванию образов 2023 года, новый видеогенератор nVidia начинается как модель латентной диффузии (LDM), обученный генерировать изображения из текста.

Следующим шагом этот генератор пытается анимировать изображение с помощью своих знаний, полученных из тысяч проанализированных существующих видео. Это добавляет время как отслеживаемое измерение и LDM оценивает, что вероятно изменится в каждой области изображения в течение определенного периода времени. Он создает несколько ключевых кадров в течение последовательности, а затем использует другой LDM для интерполяции кадров между ключевыми кадрами, создавая последовательность изображений одинакового качества, что для человека выглядит как видеоролик.

Команда использовала систему для создания множества образцов видео с разрешением 1280 x 2048 пикселей прямо из текстовых подсказок. Каждое из этих видео содержит 113 кадров и воспроизводится со скоростью 24 кадра в секунду, поэтому они длятся примерно 4,7 секунды.

Они все еще явно созданы искусственным интеллектом, и все еще можно обнаружить много странных ошибок. Также очевидно, где у многих видео имеются ключевые кадры с некоторым удивительным ускорением и замедлением движения вокруг них.Но по чистому качеству изображения это невероятный шаг вперед по сравнению с тем, что демонстрировали решение многомесячной давности. Вот, например, как выпущенный несколько месяцев назад искусственный интеллект ModelScope AI сгенерировал видео «Уилл Смит ест спагетти»:

AI-generated video of Will Smith attempting to eat spaghetti without making a mess astounds with comedic horror

Open source «text2video» ModelScope AI made the viral sensation possible, but it seems like poor Will Smith couldn’t catch a break — or a noodle. ?? pic.twitter.com/fDbUS6FlQx

— neonpulse (@neonpulsedaily) April 1, 2023

Учитывая, как эта система разработана, nVidia может позволить пользователям загружать собственные изображения или изображения с любого генератора искусственного интеллекта и превратить их в видео.

Это может создать невероятно встроенные формы развлечений. Языковая модель может написать детскую книгу, а ее иллюстрации создаст генератор изображений. Затем подобная модель может взять текст каждой страницы и использовать его для анимации иллюстраций, а другие искусственные интеллекты будут создавать реалистичные звуковые эффекты, голоса и точно настроенные музыкальные саундтреки. Детская книга становится короткометражным фильмом, идеально сохраняя визуальное чувство иллюстраций.

Сейчас nVidia рассматривает эту систему как исследовательский проект, а не потребительский продукт.

Теги
Технологии

771

Уилл Смит ест спагетти, а имперский штурмовик пылесосит на пляже — теперь в кино

Как проверить, сколько циклов «прожила» батарея вашего iPhone

Действительно ли Android требует больше оперативной памяти, чем iOS

Windows отказывается от Intel и AMD? Новую Windows 11 26H1 получат только ноутбуки Snapdragon (ARM). Intel и AMD останутся с 25H2

Один порт USB-C за счет двух портов USB: как производители экономят деньги

Vodafone

Vodafone в 1 кв. 2026: стабильность бизнеса и инвестиции в телеком-инфраструктуру Украины

Vodafone запускает 5G в межнациональном роуминге

200 грн в месяц: Vodafone запустил акцию для клиентов 55+

Vodafone инвестировал в критическую инфраструктуру и технологии более 24 млрд. грн

5G запустили на Главном железнодорожном вокзале Львова

Статті

Портативные солнечные панели не потянут нагревательные приборы даже с мощными аккумуляторами

Можем ли мы разместить центры обработки данных в космосе?

Пять наладонных телефонов: лучшие компактные смартфоны 2026 года

Классический Google ушёл. Поисковую систему ожидает самое большое изменение за 25 лет

Пять лет с мозговым имплантатом: как технология возвращает контроль над жизнью

Наушники с персональной настройкой звука: почему это важно для вашего слуха

Использование советов по обольщению людей улучшает общение с ИИ

ПОРАДИ

Как заставить Android переключать светлую и темную темы в зависимости от освещения по датчику света

Как кардинально ускорить 3D-печать

Как получить быструю зарядку путем проверки наличия чипа E-marker в кабеле USB

СТАТТІ

Портативные солнечные панели не потянут нагревательные приборы даже с мощными аккумуляторами

Можем ли мы разместить центры обработки данных в космосе?

Пять наладонных телефонов: лучшие компактные смартфоны 2026 года

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Уилл Смит ест спагетти, а имперский штурмовик пылесосит на пляже — теперь в кино

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ