Генератори зображення за текстовим описом – це уже не просто іграшка. Комп’ютерний художник Гленн Маршалл створив таким чином короткометражний фільм «Ворона». Стрічка отримала нагороду на Каннському кінофестивалі.
Раніше Маршалл уже створював відеокліпи за допомогою штучного інтелекту, наприклад, він працював для Daft Punk. Але для фільмі «Ворона» чоловік застосував інший підхід. У той час як його попередні методи перетворювали текст на випадкові візуальні зображення, «Ворон» використовує основний фільм як еталон зображення.
Чоловік знайшов на YouTube відеоролик Painted — короткий танцювальний бойовик, який став основою для його фільму The Crow. Маршалл передав відеокадри Painted до нейронної мережі CLIP, створеної OpenAI. Потім він спонукав систему згенерувати відео «малюнка ворона в безлюдному ландшафті».
Маршалл каже, що результати вимагали невеликої роботи. Він пояснює це подібністю між підказкою та основним відео, на якому зображена танцівниця в чорній шалі, що імітує рухи ворона.
У майбутньому Маршалл хоче додати 3D-анімацію до своїх творінь. Він також вивчає генерацію відео під керуванням CLIP, яка може додавати докладні текстові вказівки, наприклад певні рухи камери.
Це може призвести до створення цілих повнометражних фільмів за допомогою систем перетворення тексту у відео. Проте Маршалл вважає, що навіть його нинішні методи можуть привернути увагу великої кількості людей.
Він каже, що «Ворона» тепер має право на участь у престижній премії BAFTA.