Останнім часом технології штучного інтелекту сягнули такого рівня, що здатні генерувати реалістичні відео, які ще рік тому здавалися б фантастикою, і процес цей вимагає мінімальних зусиль. Google представила свою нову лінійку генеративних моделей Omni, яка, за задумом, має дозволяти перетворювати будь-який тип вхідних даних — фото, відео чи текст — на будь-що інше, хоча наразі функціонал обмежений створенням відео.

Першою моделлю з цієї лінійки, яку представили громадськості, є Omni Flash, інтегрована в платформу Google Flow для генерації та редагування відео. Ця модель позиціонується як покращена версія попереднього інструменту Veo, пропонуючи можливість використовувати як основу для створення відео не лише текстовий запит, але й завантажений користувачем відеоролик. Google стверджує, що Omni краще розуміє реальний світ, що дозволяє підтримувати сталість персонажів у межах одного відео.
Спроба протестувати заявлені можливості Omni виявила неоднозначні результати, які спантеличують. Деякі згенеровані кліпи демонстрували помітне покращення у відтворенні заданих параметрів та відповідності текстовому запиту порівняно з попередніми тестами моделі Veo. Проте, навіть найуспішніші фрагменти містили неприємні “AI-стрибки”, як-от несподівана зміна положення персонажа під час сцени.
Під час експерименту було запропоновано створити відеомонтаж, де персонаж пакує речі для подорожі та сідає на круїзний лайнер, що прямує до тропічного курорту, з акцентом на милий та грайливий настрій, а також наявність кумедного предмета в багажі, який відіграє певну роль. Хоча ідея з банкою меду, яку персонаж помилково використовує замість сонцезахисного крему, виявилася непоганою, сама банка неодноразово змінювала свій вигляд протягом відео, від скляної тари до пластикового флакона з рідиною, що не відповідає контексту.
Можливість редагувати згенеровані відео за допомогою текстових запитів, яку Google намагається просувати, працює краще з Omni, ніж з попередньою версією Veo. Однак, навіть тут результати часто бувають невдалими, що змушує користувачів вдаватися до повторного створення відео з нуля, аби досягти бажаного. Так, спроба підкреслити емоційні реакції персонажа призвела до дивного вигляду, а поява рогів, яких у персонажа бути не повинно, стала регулярною проблемою, що потребувала окремих команд для їх видалення, хоча це могло призвести до появи рогів в інших сценах.
Важливо зазначити, що використання Omni не є безкоштовним. Генерація відео вимагає використання кредитів, вартість яких коливається від 15 до 40 кредитів залежно від тривалості сцени та використаних “інгредієнтів”, а одне редагування коштує 40 кредитів. Навіть з платним планом “AI Pro” за 20 доларів на місяць, який надає 1000 кредитів, приблизно 20 згенерованих кліпів з декількома редагуваннями призвели до значного вичерпання балансу. Це означає, що реалізація складних ідей може потребувати значних фінансових витрат на численні спроби.
Однією з заявлених переваг Omni є можливість додавати згенеровані елементи до реальних відео. Спробувавши цю функцію, було створено кілька відеороликів, де користувач їсть спагеті, сидить в літаку або стоїть перед Ейфелевою вежею. Хоча в цих відео присутні певні ознаки штучного походження, як-от штучний звук виделки, що стукає по тарілці, або повторна поява другорядної особи у фоні, загалом вони виглядають переконливо.
Навіть чоловік, який спостерігав за процесом, не зміг одразу відрізнити згенеровані сцени від реальних, зауваживши лише незвичний вигляд тарілки. Інші відео, створені за допомогою Omni, виявилися достатньо реалістичними, щоб потенційно обдурити глядачів у соціальних мережах, і лише уважне спостереження дозволяє розпізнати ознаки штучного походження, що викликає певне занепокоєння.
Існуюча ситуація викликає певну втому від постійного спостереження за прогресом у сфері генеративного штучного інтелекту. Реалізм, якого вдається досягти, вже не вражає так сильно, як раніше, хоча технічні можливості залишаються вражаючими. Omni дійсно вдосконалює попередні моделі, але досягнення ідеального результату, який би повністю відповідав задумам користувача, все ще потребує значних зусиль та часу, що підкреслює наявність суттєвої “невизначеної долини”.


