Генераторы изображения по текстовому описанию – это уже не просто игрушка. Компьютерный художник Гленн Маршалл создал таким образом короткометражный фильм «Ворона». Лента получила награду на каннском кинофестивале.
Ранее Маршалл уже создавал видеоклипы с помощью искусственного интеллекта, например он работал для Daft Punk. Но для фильма «Ворона» мужчина применил другой подход. В то время как его предыдущие методы превращали текст в случайные визуальные изображения, «Ворон» использует основной фильм как эталон изображения.
Мужчина нашел на YouTube видеоролик Painted – короткий танцевальный боевик, ставший основой для его фильма The Crow. Маршалл передал видеокадры Painted в нейронную сеть CLIP, созданную OpenAI. Затем он побудил систему сгенерировать видео «рисунок ворона в безлюдном ландшафте».
Маршалл говорит, что результаты потребовали небольшой работы. Он объясняет это сходством между подсказкой и основным видео, на котором изображена танцовщица в черном шале, имитирующая движения ворона.
В будущем Маршалл хочет добавить 3D-анимацию в свои творения. Он также изучает генерацию видео под управлением CLIP, которая может добавлять подробные текстовые указания, например, определенные движения камеры.
Это может привести к созданию целых полнометражных фильмов посредством систем преобразования текста в видео. Однако Маршалл считает, что даже его нынешние методы могут привлечь большое количество людей.
Он говорит, что «Ворона» теперь имеет право на участие в престижной премии BAFTA.