Genie 3 — оновлена модель штучного інтелекту від Google DeepMind, здатна генерувати тривимірні віртуальні середовища, з якими можуть взаємодіяти як люди, так і ШІ-агенти. Ця модель обіцяє довшу взаємодію з ігровим світом і здатність запам’ятовувати розташування об’єктів навіть після того, як користувач від них відвернувся.
Genie 3 — значний крок уперед у створенні реалістичних ігрових світів, з якими можна взаємодіяти в реальному часі. Попри обмежений доступ, технологія демонструє, як швидко розвивається генеративний ШІ у напрямку, який ще донедавна був фантастикою. Якщо Google вдасться масштабувати цей підхід, майбутнє відеоігор, віртуального навчання та цифрових симуляцій стане ще ближчим до повноцінної віртуальної реальності.
Що таке світова модель (world model)?
Це тип ШІ-системи, яка симулює середовище для навчання, розваг або тренування роботів. Замість того щоб створювати простір вручну, користувач задає текстовий запит, і система автоматично генерує повноцінний світ, у якому можна пересуватись — як у відеогрі. Подібні системи вже застосовуються в Google, зокрема, Genie 2, яка дозволяла створювати інтерактивні світи на основі зображень.
У чому поліпшення Genie 3?
Попередні версії, як-от Genie 2, мали суттєві обмеження: взаємодія з середовищем тривала лише 10–20 секунд, і модель не запам’ятовувала зміни. Genie 3 пропонує значний прорив:
-
Тривалість взаємодії: кілька хвилин безперервної взаємодії (замість 20 секунд).
-
Візуальна пам’ять: модель може “запам’ятовувати” об’єкти до 60 секунд. Якщо ви відвернетесь і знову поглянете — надписи на дошці або малюнки на стіні залишаться на місці.
-
Якість графіки: середовища рендеряться у роздільній здатності 720p при 24 кадрах/секунду.
-
Динамічні події: можна задавати зміни в оточенні через текстові запити — наприклад, змінити погоду або додати нових персонажів.
На жаль, ця система не буде публічно доступною найближчим часом. Genie 3 запускається як обмежене дослідницьке попереднє випробування для вузького кола науковців та творців. Google хоче краще зрозуміти потенційні ризики, перш ніж відкрити доступ ширшій аудиторії.
Модель також має технічні обмеження:
-
Способи взаємодії поки що обмежені;
-
Генерація читабельного тексту працює лише за умови, що текст був явно вказаний у запиті;
-
Середовища досі не є повністю стабільними та можуть мати артефакти, як і попередні покоління ШІ-світів.
Чому це важливо?
Genie 3 є частиною глобальної гонки за створення генеративного візуального ШІ. Google формує окрему команду для розробки світових моделей, яку очолює колишній співкерівник OpenAI Sora — системи, що створює відео на основі тексту. У перспективі такі моделі можуть застосовуватися в ігровій індустрії, симуляціях, віртуальному навчанні та в підготовці роботів до взаємодії з реальним світом.