Останнім часом соціальні мережі заполонили короткі відео, що виглядають водночас правдоподібно і дивно штучними. За це можна подякувати Sora – відеомоделі від OpenAI, яка стрімко набирає популярності.
Sora – це генеративна система створення відео, розроблена OpenAI, яка перетворює текстові описи, зображення або відеофрагменти у готові короткі ролики. Наприклад, якщо ввести опис «пластиковий пакет летить у повітрі, підхоплений вітром», Sora створить відповідне відео з природним рухом і реалістичним освітленням.
Модель була вперше представлена на початку 2024 року і стала доступною для користувачів ChatGPT Plus і Pro у грудні того ж року. Вона ґрунтується на попередніх системах перетворення тексту в зображення, таких як DALL·E, але використовує оновлену архітектуру, що дозволяє створювати природнішу динаміку та стабільнішу картинку.
Важливо не плутати десктопну версію Sora, яка використовується для генерації відео, з мобільним додатком Sora для iOS та Android або з однойменним застосунком для читання. Соціальний застосунок працює на основі моделі Sora 2, тоді як настільна версія може використовувати як оригінальну модель, так і оновлену Sora 2 – залежно від регіону.
Як працює Sora
Sora є дифузійною моделлю. Вона починає створення відео з кадру, заповненого статичним шумом, і поступово прибирає його, поки з нього не формується сцена, що відповідає текстовому опису. Модель Sora 2, випущена 30 вересня, вже підтримує синхронізовані діалоги та звукові ефекти, тоді як попередні версії створювали лише беззвучні відео.
Sora розбиває зображення і кадри на невеликі фрагменти даних, які називаються патчами. Це дає змогу краще розуміти рух, текстури та деталі в різних форматах і тривалостях. За своєю функцією патчі нагадують токени у мовних моделях, які ділять текст на менші одиниці (слова, розділові знаки), що дозволяє системі створювати узгоджений результат.
Користувач може завантажити текстовий опис, статичні зображення або короткі відео як вихідні дані, а також задати тривалість від 5 до 20 секунд і роздільну здатність від 480p до 1080p.
Sora моделює не лише вигляд предметів, але й те, як вони поводяться у реальному світі. Раніше такі моделі часто помилялися з фізичними взаємодіями – наприклад, людина у відео могла кусати печиво, але відмітини укусу не з’являлися. У Sora 2 ці деталі моделюються значно точніше, хоча OpenAI визнає, що система «все ще допускає певні помилки», навіть попри те, що тепер краще дотримується законів фізики.
Можливості використання
Sora позиціонується не лише як розважальний інструмент, а й як засіб для професійного відеовиробництва. Однією з нових функцій стала розкадровка (storyboarding) – можливість створювати послідовність сцен перед генерацією відео, подібно до того, як це роблять кінематографісти. Функція доступна користувачам Plus і Pro у настільній версії.
Більшість відео, створених у Sora, поки що короткі й експериментальні. Проте розширення функціоналу – збільшення тривалості, покращення якості та введення інструментів планування – свідчить про прагнення OpenAI зробити Sora придатною для більш професійних і творчих завдань.
Деякі митці, як-от Арвіда Бистрьом, уже використовують можливості моделі у художніх цілях. Вона трактує помилки системи, наприклад, коли AI спотворює тіло або додає зайву кінцівку, як частину творчого процесу, а не як недолік. Такий підхід відкриває нові горизонти у цифровому мистецтві, де “неправильність” стає джерелом натхнення.
Проте для більшості користувачів Sora залишається інструментом швидкого створення контенту для соціальних мереж, часто без особливої цінності – так званого AI slop.
Питання довіри та сприйняття
Науковці й експерти з етики попереджають, що поширення подібних інструментів може серйозно вплинути на сприйняття реальності. З одного боку, генеративне відео демократизує виробництво контенту, з іншого – розмиває межу між правдою і вигадкою.
Як зауважує Натаніель Фаст, директор Центру етичного лідерства Університету Південної Каліфорнії, у найкращому випадку люди просто ігноруватимуть такий контент, у гіршому – «втратять здатність розрізняти, що є реальним».
Доступність і вартість
OpenAI поділила доступ до Sora на дві частини: веб-інтерфейс для професійного використання та мобільний застосунок для соціального відео.
Настільна версія підтримує довші відео, розкадровку і вищу якість. Мобільні додатки для iOS та Android орієнтовані на короткий контент і функціонують за принципом TikTok. З жовтня 2024 року користувачі у США, Канаді, Японії та Південній Кореї можуть реєструватися без запрошення.
Базові функції Sora доступні у рамках безкоштовного акаунта ChatGPT з обмеженням приблизно 30 генерацій відео на день. Підписка ChatGPT Plus за 20 доларів на місяць збільшує денний ліміт, а тариф Pro за 200 доларів відкриває розширені можливості – відео високої роздільної здатності, більшу тривалість і можливість завантаження без водяного знаку. Також передбачена оплата за додаткові пакети генерацій – близько 4 доларів за 10 відео.
Контроверсії та виклики
Перехід OpenAI від створення зображень до відео став черговим етапом трансформації креативних індустрій. Якщо раніше для зйомки навіть короткого ролика потрібна була команда фахівців, тепер це можна зробити з телефону за допомогою кількох фраз.
Проблемою стає дезінформація. Щоб запобігти зловживанням, OpenAI запровадила фільтр Likeness Misuse, який блокує спроби створення відео з реальними людьми без їхньої згоди. Якщо користувач вводить ім’я публічної особи, система або відхиляє запит, або повертає помилку.
У версії Sora 2 з’явилася функція Cameo, що дозволяє користувачеві завантажити власне зображення для створення AI-аватара з контролем над його використанням. Невдовзі після запуску компанія Cameo подала позов проти OpenAI, заявивши, що така функція може вводити користувачів в оману щодо зв’язку між брендами.
Спершу система мала політику “opt-out” для захищених авторським правом персонажів, коли власники прав самі повинні були вимагати виключення своїх матеріалів. Після хвилі критики OpenAI оголосила про перехід до більш контрольованої моделі, ближчої до “opt-in” – тобто контент може використовуватись лише після отримання дозволу.
Юристи зазначають, що попри нові фільтри, обхід системи іноді можливий, а правовий статус створених матеріалів залишається невизначеним. Зокрема, складно отримати авторське право на повністю AI-згенеровані відео, тому компаніям рекомендують додавати людський внесок у готові роботи.
Етичний вимір
На думку експертів, OpenAI має фокусуватись на продуктах, що служать суспільним цілям, а не лише прибутку. Якщо генерація відео стане масовою, це радикально змінить не лише економіку виробництва контенту, а й саме поняття достовірності.
Генеративні моделі, які колись створювали кумедні картинки, тепер переходять до повноцінного відео, і це означає, що світ цифрового мистецтва, медіа та сприйняття реальності вступає у нову фазу – з новими можливостями, але й новими ризиками.



