Повідомляється, що Google працює над суттєвим оновленням свого генеративного AI-асистента Gemini, яке потенційно може змінити його роль з переважно розмовного інструмента на більш функціонального цифрового агента, здатного виконувати практичні дії в повсякденних цифрових процесах. За результатами аналізу бета-версії коду застосунку Google, проведеного виданням 9to5Google, виявлено рядки, що вказують на функцію з внутрішньою назвою «screen automation». Ця можливість передбачає виконання певних дій безпосередньо всередині Android-застосунків від імені користувача, наприклад оформлення замовлень або бронювання поїздок, без необхідності самостійного переходу між екранами та натискання відповідних кнопок.
Наразі Gemini вже використовується для розмовних задач, включаючи підготовку електронних листів, створення планів досліджень або узагальнення інформації. Однак описане оновлення потенційно передбачає безпосередню взаємодію зі структурою застосунків, зокрема навігацію інтерфейсом, натискання елементів керування та завершення типових операцій, які раніше виконувалися вручну. Початкові ознаки в бета-коді свідчать, що функція на першому етапі може підтримувати обмежену кількість застосунків, а також супроводжуватиметься підвищеною увагою до контролю з боку користувача. У повідомленнях зазначається, що система може припускатися помилок, тому відповідальність за виконані від імені користувача дії залишатиметься за ним.
Концепція автоматизації роботи з екранами означає можливий наступний етап розвитку цифрових асистентів, коли штучний інтелект переходить від рекомендацій до безпосереднього виконання завдань. Замість підказок щодо подальших дій система може самостійно реалізовувати обрані сценарії всередині застосунків. У виявлених фрагментах коду також містяться згадки про заходи безпеки та конфіденційності, включаючи рекомендації не вводити облікові або платіжні дані в чатах зі штучним інтелектом, а також попередження, що знімки екрана можуть аналізуватися для вдосконалення функції.
Подібні агентні можливості вже частково присутні у платформі Gemini Agent для сервісів Workspace та веб-середовищ, де штучний інтелект може координувати складні робочі процеси між різними сервісами. Функція автоматизації екрана потенційно переносить ці можливості безпосередньо на смартфони, що може розширити застосування AI у щоденній роботі з мобільними застосунками.
Якщо функціональність буде впроваджена у широкому масштабі, це може змінити звичні способи взаємодії з мобільними пристроями. Замість ручного керування інтерфейсом користувачі отримають можливість делегувати частину рутинних операцій інтелектуальним системам. Такий підхід здатний підвищити ефективність повсякденних цифрових задач, однак одночасно порушує питання контролю, безпеки та відповідальності, особливо у випадках, коли автоматизація стосується фінансових операцій або персональних бронювань.
Повідомляється, що Google розглядає цю функцію як добровільну опцію з постійним наглядом користувача. Передбачається можливість у будь-який момент призупинити або скасувати дії Gemini. Станом на тепер функція автоматизації екрана залишається на етапі розробки та ще не включена до стабільних версій програмного забезпечення.



