В последнее время технологии искусственного интеллекта достигли такого уровня, что способны генерировать реалистичные видео, которые ещё год назад показались бы фантастикой, и процесс этот требует минимальных усилий. Google представила свою новую линейку генеративных моделей Omni, которая, по замыслу, должна позволять преобразовывать любой тип входных данных — фото, видео или текст — во что угодно другое, хотя на данный момент функционал ограничен созданием видео.

Первой моделью из этой линейки, которую представили общественности, является Omni Flash, интегрированная в платформу Google Flow для генерации и редактирования видео. Эта модель позиционируется как улучшенная версия предыдущего инструмента Veo, предлагая возможность использовать в качестве основы для создания видео не только текстовый запрос, но и загруженный пользователем видеоролик. Google утверждает, что Omni лучше понимает реальный мир, что позволяет поддерживать постоянство персонажей в рамках одного видео.
Попытка протестировать заявленные возможности Omni выявила неоднозначные и сбивающие с толку результаты. Некоторые сгенерированные клипы демонстрировали заметное улучшение в воспроизведении заданных параметров и соответствии текстовому запросу по сравнению с предыдущими тестами модели Veo. Однако, даже самые успешные фрагменты содержали неприятные «AI-прыжки», такие как неожиданное изменение положения персонажа во время сцены.
Во время эксперимента было предложено создать видеомонтаж, где персонаж пакует вещи для путешествия и садится на круизный лайнер, направляющийся в тропический курорт, с акцентом на милое и игривое настроение, а также наличие забавного предмета в багаже, который играет определённую роль. Хотя идея с банкой мёда, которую персонаж ошибочно использует вместо солнцезащитного крема, оказалась неплохой, сама банка неоднократно меняла свой вид в течение видео, от стеклянной тары до пластикового флакона с жидкостью, что не соответствует контексту.
Возможность редактировать сгенерированные видео с помощью текстовых запросов, которую Google пытается продвигать, работает лучше с Omni, чем с предыдущей версией Veo. Однако, даже здесь результаты часто бывают неудачными, что заставляет пользователей прибегать к повторному созданию видео с нуля, чтобы достичь желаемого. Так, попытка подчеркнуть эмоциональные реакции персонажа привела к странному виду, а появление рогов, которых у персонажа быть не должно, стало регулярной проблемой, требующей отдельных команд для их удаления, хотя это могло привести к появлению рогов в других сценах.
Важно отметить, что использование Omni не является бесплатным. Генерация видео требует использования кредитов, стоимость которых колеблется от 15 до 40 кредитов в зависимости от продолжительности сцены и использованных «ингредиентов», а одно редактирование стоит 40 кредитов. Даже с платным планом «AI Pro» за 20 долларов в месяц, который предоставляет 1000 кредитов, примерно 20 сгенерированных клипов с несколькими редактированиями привели к значительному исчерпанию баланса. Это означает, что реализация сложных идей может потребовать значительных финансовых затрат на многочисленные попытки.
Одним из заявленных преимуществ Omni является возможность добавлять сгенерированные элементы к реальным видео. Попробовав эту функцию, было создано несколько видеороликов, где пользователь ест спагетти, сидит в самолёте или стоит перед Эйфелевой башней. Хотя в этих видео присутствуют определённые признаки искусственного происхождения, такие как искусственный звук вилки, стукающей по тарелке, или повторное появление второстепенного лица на фоне, в целом они выглядят убедительно.
Даже мужчина, который наблюдал за процессом, не смог сразу отличить сгенерированные сцены от реальных, заметив лишь необычный вид тарелки. Другие видео, созданные с помощью Omni, оказались достаточно реалистичными, чтобы потенциально обмануть зрителей в социальных сетях, и лишь внимательное наблюдение позволяет распознать признаки искусственного происхождения, что вызывает определённое беспокойство.
Существующая ситуация вызывает определённую усталость от постоянного наблюдения за прогрессом в сфере генеративного искусственного интеллекта. Реализм, которого удаётся достичь, уже не впечатляет так сильно, как раньше, хотя технические возможности остаются впечатляющими. Omni действительно совершенствует предыдущие модели, но достижение идеального результата, который бы полностью соответствовал замыслам пользователя, всё ещё требует значительных усилий и времени, что подчёркивает наличие существенной «неопределённой долины».


