Понедельник, 22 декабря, 2025

У искусственного интеллекта ограниченная фантазия: он имеет всего 12 стилей генерации изображений

Разработчики генераторов изображений на основе искусственного интеллекта «продают» их как способ генерировать все, на что способно ваше воображение. Но исследования показали, что это невозможно из-за ограничений искусственного интеллекта. У ИИ всего 12 стилей генерации изображений.

Модели искусственного интеллекта для генерации изображений имеют в своем распоряжении обширные массивы визуальных данных, из которых они могут извлечь информацию для создания уникальных результатов. В то же время исследователи обнаружили, что когда такие модели вынуждены генерировать изображения на основе серии постепенно меняющихся запросов, они имеют тенденцию сводить результат к ограниченному числу визуальных мотивов, в конечном итоге формируя общий шаблонный стиль.

В исследовании, опубликованном в журнале Patterns, были использованы два генератора изображений на базе искусственного интеллекта — Stable Diffusion XL и LLaVA — и протестированы их в своего рода игре «визуальный телефон». Суть эксперимента заключалась в следующем. Модели Stable Diffusion XL предоставили короткую текстовую подсказку и запросили создать изображение. Например: «Сидя в особом одиночестве, в окружении природы, я нашел старую книгу ровно в восемь страниц, в которой рассказывалась история на забытом языке, ожидающая, чтобы ее прочитали и поняли». Созданное изображение передавалось модели LLaVA, которой было предложено описать увиденное. Это описание было передано обратно на вход Stable Diffusion с просьбой сгенерировать новое изображение уже на основе полученного текста. Этот цикл повторялся сто раз.

Как и в человеческой игре со сломанным телефоном, исходное изображение очень быстро потерялось. Это не стало неожиданностью, особенно если учесть распространённые примеры таймлапс-видео, где модели искусственного интеллекта предлагается воспроизвести одно и то же изображение без изменений, но после нескольких итераций результат перестаёт даже отдаленно напоминать оригинал. Неожиданностью для исследователей стало еще одно: модели почти всегда сходились лишь на нескольких общих, визуально схожих стилях. Проанализировав тысячу различных вариаций этой игры, ученые обнаружили, что большинство последовательностей изображений в конечном итоге сводились только к одному из двенадцати доминирующих мотивов.

В большинстве случаев переход к этому стилю происходил постепенно. Иногда он был резким. Но этот процесс почти всегда имел место. Результат не впечатлил исследователей. В самой газете эти распространенные стили они назвали «визуальной лифтовой музыкой», то есть изображениями, которые легко представить на стенах гостиничных номеров. Среди наиболее распространенных сцен были маяки, формальные интерьеры, ночные городские пейзажи и сельская или деревенская архитектура.

Даже когда для генерации изображений и описаний использовались другие модели, проявлялись те же тенденции. Исследователи отметили, что если продлить игру до тысячи раундов, то приведение к определенному стилю все равно происходит примерно на сотой итерации, а дальнейшие шаги лишь порождают вариации. Однако эти вариации обычно по-прежнему опираются на один из популярных визуальных мотивов.

Общий вывод таков: искусственный интеллект не демонстрирует высокий уровень креативности. В человеческой версии игры по телефону результат обычно сильно варьируется, поскольку каждый человек слышит и передает сообщения по-разному и имеет свои собственные предубеждения и предпочтения, влияющие на восприятие. У искусственного интеллекта противоположная проблема. Независимо от того, насколько необычен первоначальный запрос, система в конечном итоге сводит результат к узкому набору стилей.

При этом следует учитывать, что модели искусственного интеллекта обучаются на запросах и изображениях, созданных людьми. Это означает, что важную роль играет сам набор данных и то, что люди склонны фотографировать или описывать. Если из этого исследования можно извлечь урок, то, вероятно, гораздо легче копировать стиль, чем учить вкусу.

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Евгений пишет для TechToday с 2012 года. По образованию инженер,. Увлекается реставрацией старых автомобилей.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті