Суббота, 15 ноября, 2025

Как модели ИИ генерируют видео: понятное объяснение

Десятилетиями считалось, что способность человека к творчеству – это нечто полубожественное, что наука не может объяснить, а потому машины никогда не смогут творить. Но вот пришел искусственный интеллект и оказалось, что для творчества даже мозг не нужен. Мы уже знаем, как искусственный интеллект пишет тексты – подставляет наиболее вероятное следующее слово после текущего слова . Но искусственный интеллект также пишет музыку, рисует картинки и даже создает видео, которое идеально синхронизировано со сгенерированным звуком. Давайте разберемся, как именно ИИ создает видео.

Этот год стал знаковым для видеогенерации. За последние девять месяцев OpenAI открыла доступ к Sora, Google DeepMind представила Veo 3, а стартап Runway выпустил Gen-4. Все эти модели способны создавать видео, которые практически неотличимы от снятых камерой или компьютерной анимации. Также в этом году Netflix впервые использовал сгенерированный ИИ видеоэффект в сериале The Eternaut — это стало первым примером применения генеративного видео в массовом телепродукте.

Конечно, демонстрационные ролики компаний показывают только лучшие примеры работы моделей. Но теперь, когда Sora и Veo 3 интегрированы в приложения ChatGPT и Gemini для платных пользователей, даже самый обычный любитель может создать что-то впечатляющее. Обратная сторона-растущее количество низкокачественного контента и фейковых видео в соцсетях. Кроме того, генерация видео требует огромных энергетических ресурсов, во много раз больших, чем для создания текста или изображений.

Как создается видео с использованием ИИ?

Для профессионалов существуют сложные инструменты, которые интегрируются в видеопродакшн, но большинство пользователей взаимодействуют с технологией через приложения или веб-сервисы. Сценарий типичный: «Эй, Gemini, создай видео, где единорог ест спагетти. А теперь пусть его рог взлетит как ракета». Результат может быть случайным: иногда приходится делать десятки попыток, чтобы приблизиться к желаемому.

Причина в том, что современные генеративные модели видео основаны на так называемых латентных диффузионных трансформерах.

Что такое диффузионная модель?

Представим изображение, на которое постепенно накладывается случайный шум. После многих итераций он превращается в хаотичный «снег», похожий на статический шум на старом телевизоре. Диффузионная модель-это нейронная сеть, обученная делать обратный процесс: из шума восстанавливать изображения.

В процессе обучения модель видит миллионы изображений на разных стадиях зашумленности и учится постепенно восстанавливать их. Когда же пользователь задает текстовый запрос, диффузионная модель начинает с «шумового» состояния и шаг за шагом формирует картинку, которая соответствует запросу. Для этого она работает в паре с другой моделью, обычно большой речевой моделью, которая соотносит текстовые описания с визуальными примерами и направляет диффузионный процесс в нужную сторону.

Такие модели обучаются на массивных наборах данных-миллиардах пар текстов и изображений или видео, собранных из открытых источников. Это создает своеобразную «дистилляцию» визуального мира, но одновременно и воспроизводит предубеждения, присущие интернет-контенту.

Диффузионный подход применяется не только к изображениям, но и к звуку или видео. Для создания видео модель должна восстанавливать последовательность кадров, а не один кадр.

Латентная диффузия

Обычная диффузия требует колоссальных вычислительных ресурсов. Поэтому большинство современных моделей работают в латентном пространстве. Вместо обработки миллионов пикселей каждого кадра система сжимает данные в математические коды, которые сохраняют только ключевые характеристики. Это похоже на видеостриминг: файл сжимается для более быстрой передачи, а затем восстанавливается для просмотра.

В процессе скрытой диффузии случайный шум в сжатом пространстве шаг за шагом преобразуется в согласованные закодированные кадры, соответствующие запросу. Затем эти кадры раскодируются в готовое видео. Такой метод значительно эффективнее классического, хотя энергозатраты остаются очень высокими.

Латентный диффузионный трансформер

Чтобы сохранить согласованность между кадрами, диффузию сочетают с трансформерами. Именно так было сделано в Sora, и теперь это стало стандартом. Трансформеры хорошо работают с длинными последовательностями данных и обеспечивают постоянство объектов, освещения или движений во времени.

Видео для обучения модели разбивается на пространственно-временные блоки — » кубики», которые трансформер может анализировать как последовательности. Это позволяет тренировать модель на различных форматах — от вертикальных клипов до широкоформатных фильмов-и создавать видео в нужной разметке.

Генерация видео со звуком

Одним из главных нововведений Veo 3 стала синхронная генерация видео и аудио: от диалогов до шумов окружения. Это первый случай в практике генеративных моделей видео. Техническим прорывом стало объединение аудио и видео в общем сжатом представлении, чтобы диффузионный процесс работал с ними одновременно, обеспечивая синхронность.

Отличия от языковых моделей

Диффузионные модели преимущественно применяются для визуальных и звуковых данных. Вместо этого языковые модели, генерирующие текст или код, основаны на трансформерах. В то же время границы между подходами стираются: трансформеры уже сочетаются с диффузионными моделями для видео, а этим летом Google DeepMind представил экспериментальную языковую модель, которая для генерации текста использует диффузию вместо трансформера.

Интересно, что несмотря на высокие затраты видеогенерации, диффузионные модели сами по себе эффективнее трансформеров. Это означает, что в будущем диффузионные подходы могут получить еще более широкое применение, в том числе и в создании текста.

По материалам: MIT Technology Review

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Евгений пишет для TechToday с 2012 года. По образованию инженер,. Увлекается реставрацией старых автомобилей.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті