nVidia продемонструвала нову систему штучного інтелекту, яка здатна за текстовим описом згенерувати невеликий відеоролик. Особливість новинки в тому, що генерується відео у високій роздільній здатності 1280×2048 пікселів. При цьому користувачеві потрібно лише написати кілька фраз тексту.
Представлений на конференції IEEE з комп’ютерного бачення та розпізнавання образів 2023, новий відеогенератор nVidia починається як модель латентної дифузії (LDM), навчений генерувати зображення з тексту.
Наступним кроком цей генератор намагається анімувати зображення за допомогою своїх знань, отриманих з тисяч проаналізованих існуючих відео. Це додає час як відстежуваний вимір, і LDM оцінює, що ймовірно зміниться в кожній області зображення протягом певного періоду часу. Він створює кілька ключових кадрів упродовж послідовності, а потім використовує інший LDM для інтерполяції кадрів між ключовими кадрами, створюючи послідовність зображень однакової якості, що для людини виглядає як відеоролик.
Команда використовувала систему для створення безлічі зразків відео з роздільною здатністю 1280 x 2048 пікселів просто з текстових підказок. Кожне з цих відео містить 113 кадрів і відтворюється зі швидкістю 24 кадри в секунду, тому вони тривають приблизно 4,7 секунди.
Вони все ще явно створені штучним інтелектом, і все ще можна знайти багато дивних помилок. Також очевидно, де в багатьох відео є ключові кадри з деяким дивним прискоренням і сповільненням руху навколо них. Але за чистою якістю зображення це неймовірний крок вперед у порівнянні з тим, демонстрували рішення кількамісячної давнини. Ось, наприклад, як випущений кілька місяців назад штучний інтелект ModelScope AI згенерував відео “Вілл Сміт їсть спагетті”:
AI-generated video of Will Smith attempting to eat spaghetti without making a mess astounds with comedic horror
Open source “text2video” ModelScope AI made the viral sensation possible, but it seems like poor Will Smith couldn’t catch a break – or a noodle. ?? pic.twitter.com/fDbUS6FlQx
— neonpulse (@neonpulsedaily) April 1, 2023
З огляду на те, як ця система розроблена, nVidia може дозволити користувачам завантажувати власні зображення або зображення з будь-якого генератора штучного інтелекту та перетворити їх на відео.
Це може створити неймовірно інтегровані форми розваг. Мовна модель може написати дитячу книжку, а її ілюстрації створить генератор зображень. Потім подібна модель може взяти текст кожної сторінки та використовувати його для анімації ілюстрацій, а інші штучні інтелекти створюватимуть реалістичні звукові ефекти, голоси та точно налаштовані музичні саундтреки. Дитяча книга стає короткометражним фільмом, ідеально зберігаючи візуальне відчуття ілюстрацій.
Зараз nVidia розглядає цю систему як дослідницький проект, а не як споживчий продукт.