Розробники генераторів зображень на основі штучного інтелекту “продають” їх як спосіб згенерувати будь-що, на що здатна ваша фантазія. Але дослідження показало, що це неможливо внаслідок обмежень штучного інтелекту. ШІ має лише 12 стилів генерації зображень.
Моделі штучного інтелекту для генерації зображень мають у своєму розпорядженні величезні масиви візуальних даних, з яких вони можуть черпати інформацію для створення унікальних результатів. Водночас дослідники з’ясували, що коли такі моделі змушують генерувати зображення на основі серії поступово змінюваних запитів, вони схильні зводити результат лише до обмеженої кількості візуальних мотивів, у підсумку формуючи загальний, шаблонний стиль.
Дослідження, опубліковане в журналі Patterns, взяло два генератори зображень на основі штучного інтелекту — Stable Diffusion XL і LLaVA — та перевірило їх у своєрідній грі у «візуальний телефон». Суть експерименту полягала в такому. Моделі Stable Diffusion XL надавали короткий текстовий запит і вимагали створити зображення. Наприклад: «Сидячи в особливій самотності, оточений природою, я знайшов стару книгу з рівно вісьмома сторінками, яка розповідала історію забутою мовою, що чекала, аби її прочитали й зрозуміли». Створене зображення передавалося моделі LLaVA, яку просили описати побачене. Цей опис знову подавали на вхід Stable Diffusion, просячи згенерувати нове зображення вже на основі отриманого тексту. Такий цикл повторювався сто разів.
Як і в людській грі в «зіпсований телефон», початкове зображення дуже швидко втрачалося. Це не стало несподіванкою, особливо з огляду на поширені приклади таймлапс-відео, де модель штучного інтелекту просять відтворювати одне й те саме зображення без змін, але вже за кілька ітерацій результат перестає навіть віддалено нагадувати оригінал. Несподіваним для дослідників стало інше: моделі майже завжди сходилися лише до кількох загальних, візуально однотипних стилів. Проаналізувавши тисячу різних варіацій цієї гри, науковці виявили, що більшість послідовностей зображень у підсумку зводилися лише до одного з дванадцяти домінантних мотивів.
У більшості випадків перехід до такого стилю відбувався поступово. Іноді він був різким. Але майже завжди цей процес мав місце. Дослідники не були вражені результатом. У самій роботі вони назвали ці поширені стилі «візуальною ліфтовою музикою», тобто зображеннями, які легко уявити на стінах готельних номерів. Серед найпоширеніших сцен зустрічалися морські маяки, формальні інтер’єри, нічні міські пейзажі та сільська або рустикальна архітектура.
Навіть коли для генерації зображень і створення описів використовувалися інші моделі, з’являлися ті самі тенденції. Дослідники зазначили, що якщо продовжити гру до тисячі раундів, зведення до певного стилю все одно відбувається приблизно на сотій ітерації, а подальші кроки лише породжують варіації. При цьому ці варіації зазвичай усе одно спираються на один із популярних візуальних мотивів.
Загальний висновок полягає в тому, що штучний інтелект не демонструє високого рівня креативності. У людській версії гри в «телефон» результат зазвичай сильно варіюється, оскільки кожна людина по-різному чує та передає повідомлення, а також має власні упередження й уподобання, які впливають на сприйняття. У штучного інтелекту протилежна проблема. Незалежно від того, наскільки химерним є початковий запит, система зрештою зводить результат до вузького набору стилів.
Водночас слід враховувати, що моделі штучного інтелекту навчаються на запитах і зображеннях, створених людьми. Це означає, що важливу роль відіграє сам набір даних і те, що саме люди схильні фотографувати або описувати. Якщо з цього дослідження і випливає певний урок, то, ймовірно, він полягає в тому, що копіювати стиль значно легше, ніж навчити смаку.



