Genie 3 — обновленная модель искусственного интеллекта от Google DeepMind , способная генерировать трехмерные виртуальные среды, с которыми могут взаимодействовать как люди, так и ИИ-агенты. Эта модель обещает более длительное взаимодействие с игровым миром и способность запоминать расположение объектов даже после того, как пользователь от них отвернулся.
Genie 3-значительный шаг вперед в создании реалистичных игровых миров, с которыми можно взаимодействовать в реальном времени. Несмотря на ограниченный доступ, технология демонстрирует, как быстро развивается генеративный ИИ в направлении, которое еще до недавнего времени было фантастикой. Если Google удастся масштабировать этот подход, будущее видеоигр, виртуального обучения и цифровых симуляций станет еще ближе к полноценной виртуальной реальности.
Что такое мировая модель (world model)?
Это тип ИИ-системы, которая имитирует среду обучения, развлечений или обучения роботов. Вместо того чтобы создавать пространство вручную, пользователь задает текстовый запрос, и система автоматически генерирует полноценный мир, в котором можно передвигаться — как в видеоигре. Подобные системы уже применяются в Google, в частности, Genie 2, которая позволяла создавать интерактивные миры на основе изображений.
В чем улучшение Genie 3?
Предыдущие версии, такие как Genie 2, имели существенные ограничения: взаимодействие со средой длилось всего 10-20 секунд, и модель не запоминала изменения. Genie 3 предлагает значительный прорыв:
-
Продолжительность взаимодействия: несколько минут непрерывного взаимодействия (вместо 20 секунд).
-
Визуальная память: модель может «запоминать» объекты до 60 секунд. Если вы отвернетесь и снова посмотрите-надписи на доске или рисунки на стене останутся на месте.
-
Качество графики: среды рендерятся в разрешении 720p при 24 кадрах в секунду.
-
Динамические события: можно задавать изменения в окружении через текстовые запросы-например, изменить погоду или добавить новых персонажей.
К сожалению, эта система не будет общедоступной в ближайшее время. Genie 3 запускается как ограниченное предварительное исследование для узкого круга ученых и создателей. Google хочет лучше понять потенциальные риски, прежде чем открыть доступ более широкой аудитории.
Модель также имеет технические ограничения:
-
Способы взаимодействия пока ограничены;
-
Генерация читаемого текста работает только в том случае, если текст был явно указан в запросе;
-
Среды по-прежнему не полностью стабильны и могут иметь артефакты, как и предыдущие поколения ИИ-миров.
Почему это важно?
Genie 3 является частью глобальной гонки за создание генеративного визуального ИИ. Google формирует отдельную команду для разработки мировых моделей, которую возглавляет бывший соруководитель OpenAI Sora-системы, создающей видео на основе текста. В перспективе такие модели могут применяться в игровой индустрии, симуляциях, виртуальном обучении и в подготовке роботов к взаимодействию с реальным миром.