Неділя, 22 Грудня, 2024

Фотографії як у «Гаррі Поттері»: штучний інтелект «оживляє» будь-яке зображення

Фанати «Гаррі Поттера» пам’ятають одну із примітних особливостей цього літературного всесвіту – рухомі фотографії. Нещодавно такі короткі анімації стало легко робити і в реальності. Новий штучний інтелект Stable Video Diffusion дозволяє перетворити будь-яке статичне фото на рухому анімацію.

Stability AI випустила Stable Video Diffusion як новий безкоштовний дослідницький інструмент штучного інтелекту, який може перетворити будь-яке нерухоме зображення на коротке відео. Це відкрита тестова версія двох моделей штучного інтелекту, які використовують техніку під назвою «зображення у відео». Її можна запускати локально на машині з відеокартою Nvidia.

Минулого року Stability AI викликав хвилю, випустивши Stable Diffusion – модель синтезу зображень, яка поклала початок хвилі згенерованих штучним інтелектом картинок. Тепер Stability хоче зробити те саме з відеосинтезом, хоча ця технологія все ще знаходиться в зародковому стані.

Наразі Stable Video Diffusion складається з двох моделей: одна, яка може створювати синтез зображення до відео довжиною 14 кадрів (називається SVD), і інша, яка генерує 25 кадрів (називається SVD-XT).

Вони можуть працювати на різних швидкостях від 3 до 30 кадрів на секунду та виводити короткі (зазвичай тривалістю 2-4 секунди) відеокліпи MP4 з роздільною здатністю 576?1024 точок.

Для роботи потрібно мати досить потужний комп’ютер. Наприклад, локальне створення 14-кадрової анімації зайняло близько 30 хвилин на відеокарті Nvidia RTX 3060, але можна експериментувати.

Враховуючи ці обмеження, Stability підкреслює, що модель ще рання і призначена лише для досліджень. Не дивно, що дослідницька стаття Stable Video Diffusion не розкриває джерело навчальних наборів даних моделей, лише стверджуючи, що дослідницька група використовувала «великий набір відеоданих, що включає приблизно 600 мільйонів зразків», які вони курували у великий набір відеоданих, який складається з 580 мільйонів анотованих відеокліпів, які охоплюють 212 років контенту.

Stable Video Diffusion — далеко не перша модель AI, яка пропонує таку функцію. Раніше подібні методи представили Meta , Google і Adobe. Джерело та ваги Stable Video Diffusion доступні на GitHub (https://github.com/Stability-AI/generative-models).

Євген
Євген
Євген пише для TechToday з 2012 року. Інженер за освітою. Захоплюється реставрацією старих автомобілів.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися