Субота, 15 Листопада, 2025

Як ШІ-моделі генерують відео: зрозуміле пояснення

Десятиліттями вважалося, що здатність людини до творчості – це щось напівбожествене, що наука не може пояснити, а тому машини ніколи не зможуть творити. Але ось прийшов штучний інтелект і виявилося, що для творчості навіть мозок не потрібен. Ми уже знаємо, як штучниий інтелект пише тексти – підставляє найбільш ймовірне наступне слово після поточного слова. Але штучний інтелект також пише музику, малює картинки та навіть створює відео, яке ідеально синхронізлване зі згенерованим звуком. Давайте розберемося, як саме ШІ створює відео.

Цей рік став знаковим для відеогенерації. За останні дев’ять місяців OpenAI відкрив доступ до Sora, Google DeepMind представив Veo 3, а стартап Runway випустив Gen-4. Усі ці моделі здатні створювати відео, які майже неможливо відрізнити від знятих камерою чи комп’ютерної анімації. Також цього року Netflix вперше використав згенерований ШІ відеоефект у серіалі The Eternaut — це стало першим прикладом застосування генеративного відео в масовому телепродукті.

Звичайно, демонстраційні ролики компаній показують лише найкращі приклади роботи моделей. Але тепер, коли Sora та Veo 3 інтегровані у застосунки ChatGPT і Gemini для платних користувачів, навіть найзвичайніший аматор може створити щось вражаюче. Зворотний бік — зростаюча кількість низькоякісного контенту та фейкових відео в соцмережах. Крім того, генерація відео потребує величезних енергетичних ресурсів, у багато разів більших, ніж для створення тексту чи зображень.

Як створюється відео за допомогою ШІ?

Для професіоналів існують складні інструменти, що інтегруються у відеопродакшн, але більшість користувачів взаємодіють із технологією через застосунки чи вебсервіси. Сценарій типовий: «Гей, Gemini, створи відео, де єдиноріг їсть спагеті. А тепер нехай його ріг злетить як ракета». Результат може бути випадковим: інколи доводиться робити десятки спроб, щоб наблизитися до бажаного.

Причина в тому, що сучасні генеративні моделі відео базуються на так званих латентних дифузійних трансформерах.

Що таке дифузійна модель?

Уявімо зображення, на яке поступово накладається випадковий шум. Після багатьох ітерацій воно перетворюється на хаотичний «сніг», подібний до статичного шуму на старому телевізорі. Дифузійна модель — це нейронна мережа, навчена робити зворотний процес: із шуму відновлювати зображення.

У процесі навчання модель бачить мільйони зображень на різних стадіях зашумленості та вчиться поступово відновлювати їх. Коли ж користувач задає текстовий запит, дифузійна модель починає зі «шумового» стану й крок за кроком формує картинку, яка відповідає запиту. Для цього вона працює у парі з іншою моделлю, зазвичай великою мовною моделлю, що співвідносить текстові описи з візуальними прикладами й спрямовує дифузійний процес у потрібний бік.

Такі моделі навчаються на масивних наборах даних — мільярдах пар текстів і зображень чи відео, зібраних із відкритих джерел. Це створює своєрідну «дистиляцію» візуального світу, але одночасно й відтворює упередження, властиві інтернет-контенту.

Дифузійний підхід застосовується не лише для зображень, а й для звуку чи відео. Для створення відео модель повинна відновлювати послідовність кадрів, а не один кадр.

Латентна дифузія

Звичайна дифузія потребує колосальних обчислювальних ресурсів. Тому більшість сучасних моделей працюють у латентному просторі. Замість обробки мільйонів пікселів кожного кадру система стискає дані у математичні коди, що зберігають лише ключові характеристики. Це схоже на відеострімінг: файл стискається для швидшої передачі, а потім відновлюється для перегляду.

У процесі латентної дифузії випадковий шум у стислому просторі крок за кроком перетворюється на узгоджені закодовані кадри, які відповідають запиту. Потім ці кадри розкодовуються у готове відео. Такий метод значно ефективніший за класичний, хоча енерговитрати залишаються дуже високими.

Латентний дифузійний трансформер

Щоб зберегти узгодженість між кадрами, дифузію поєднують із трансформерами. Саме так було зроблено у Sora, і тепер це стало стандартом. Трансформери добре працюють із довгими послідовностями даних і забезпечують сталість об’єктів, освітлення чи рухів у часі.

Відео для навчання моделі розбивається на просторово-часові блоки — «кубики», які трансформер може аналізувати як послідовності. Це дозволяє тренувати модель на різних форматах — від вертикальних кліпів до широкоформатних фільмів — і створювати відео у потрібній розмітці.

Генерація відео зі звуком

Одним із головних нововведень Veo 3 стала синхронна генерація відео та аудіо: від діалогів до шумів оточення. Це перший випадок у практиці генеративних моделей відео. Технічним проривом стало поєднання аудіо та відео у спільному стислому представленні, щоб дифузійний процес працював із ними одночасно, забезпечуючи синхронність.

Відмінності від мовних моделей

Дифузійні моделі переважно застосовуються для візуальних і звукових даних. Натомість мовні моделі, що генерують текст чи код, базуються на трансформерах. Водночас межі між підходами стираються: трансформери вже поєднуються з дифузійними моделями для відео, а цього літа Google DeepMind представив експериментальну мовну модель, яка для генерації тексту використовує дифузію замість трансформера.

Цікаво, що попри високі витрати відеогенерації, дифузійні моделі самі по собі ефективніші за трансформери. Це означає, що в майбутньому дифузійні підходи можуть отримати ще ширше застосування, у тому числі й у створенні тексту.

За матеріалами: MIT Technology Review

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Євген пише для TechToday з 2012 року. Інженер за освітою. Захоплюється реставрацією старих автомобілів.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті