Воскресенье, 22 декабря, 2024

Фотографии как в «Гарри Поттере»: искусственный интеллект «оживляет» любое изображение

Фанаты «Гарри Поттера» помнят одну из примечательных особенностей этой литературной вселенной – подвижные фотографии. Недавно столь короткие анимации стало легко делать и в реальности. Новый искусственный интеллект Stable Video Diffusion позволяет превратить любое статическое фото в подвижную анимацию.

Stability AI выпустила Stable Video Diffusion как новый бесплатный исследовательский инструмент искусственного интеллекта, который может превратить любое неподвижное изображение в короткое видео. Это открытая тестовая версия двух моделей искусственного интеллекта, использующих технику под названием «изображение в видео». Ее можно запускать локально на машине с видеокартой Nvidia.

В прошлом году Stability AI вызвал волну, выпустив Stable Diffusion – модель синтеза изображений, которая положила начало волне сгенерированных искусственным интеллектом картинок. Теперь Stability хочет сделать то же с видеосинтезом, хотя эта технология все еще находится в зачаточном состоянии.

Stable Video Diffusion состоит из двух моделей: одна, которая может создавать синтез изображения к видео длиной 14 кадров (называется SVD), и другая, которая генерирует 25 кадров (называется SVD-XT).

Они могут работать на разных скоростях от 3 до 30 кадров в секунду и выводить короткие (обычно продолжительностью 2-4 секунды) видеоклипы MP4 с разрешением 576х1024 точек.

Для работы нужно иметь достаточно мощный компьютер. К примеру, локальное создание 14-кадровой анимации заняло около 30 минут на видеокарте Nvidia RTX 3060, но можно экспериментировать.

Учитывая эти ограничения, Stability подчеркивает, что модель еще ранняя и предназначена только для исследований. Неудивительно, что исследовательская статья Stable Video Diffusion не раскрывает источник обучающих наборов данных моделей, лишь утверждая, что исследовательская группа использовала «большой набор видеоданных, включающий примерно 600 миллионов образцов», которые они курировали в большой набор видеоданных, состоящий из 580 миллионов аннотированных видеоклипов, охватывающих 212 лет контента.

Stable Video Diffusion – далеко не первая модель AI, предлагающая такую ??функцию. Ранее подобные методы представили Meta, Google и Adobe. Источник и вес Stable Video Diffusion доступны на GitHub (https://github.com/Stability-AI/generative-models).

Євген
Євген
Евгений пишет для TechToday с 2012 года. По образованию инженер,. Увлекается реставрацией старых автомобилей.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися