Сообщается, что Google работает над существенным обновлением своего генеративного AI-ассистента Gemini, которое потенциально может изменить его роль с преимущественно разговорного инструмента на более функционального цифрового агента, способного выполнять практические действия в повседневных цифровых процессах. По результатам анализа бета-версии кода приложения Google, проведенного изданием 9to5Google, обнаружены строки, указывающие на функцию с внутренним названием «screen automation». Эта возможность предполагает выполнение определенных действий непосредственно внутри Android-приложений от имени пользователя, например оформление заказов или бронирование поездок, без необходимости самостоятельного перехода между экранами и нажатия соответствующих кнопок.
В настоящее время Gemini уже используется для разговорных задач, включая подготовку электронных писем, создание планов исследований или обобщение информации. Однако описанное обновление потенциально предполагает прямое взаимодействие со структурой приложений, включая навигацию по интерфейсу, нажатие элементов управления и завершение типичных операций, которые ранее выполнялись вручную. Начальные признаки в бета-коде свидетельствуют, что функция на первом этапе может поддерживать ограниченное количество приложений, а также будет сопровождаться повышенным вниманием к контролю со стороны пользователя. В сообщениях отмечается, что система может допускать ошибки, поэтому ответственность за выполненные от имени пользователя действия будет оставаться за ним.
Концепция автоматизации работы с экранами означает возможный следующий этап развития цифровых ассистентов, когда искусственный интеллект переходит от рекомендаций к непосредственному выполнению задач. Вместо подсказок относительно дальнейших действий система может самостоятельно реализовывать выбранные сценарии внутри приложений. В обнаруженных фрагментах кода также содержатся упоминания о мерах безопасности и конфиденциальности, включая рекомендации не вводить учетные или платежные данные в чатах с искусственным интеллектом, а также предупреждения, что снимки экрана могут анализироваться для улучшения функции.
Подобные агентные возможности уже частично присутствуют в платформе Gemini Agent для сервисов Workspace и веб-сред, где искусственный интеллект может координировать сложные рабочие процессы между различными сервисами. Функция автоматизации экрана потенциально переносит эти возможности непосредственно на смартфоны, что может расширить использование ИИ в повседневной работе с мобильными приложениями.
Если функциональность будет реализована в широком масштабе, это может изменить привычные способы взаимодействия с мобильными устройствами. Вместо ручного управления интерфейсом пользователи получат возможность делегировать часть рутинных операций интеллектуальным системам. Такой подход способен повысить эффективность повседневных цифровых задач, однако одновременно поднимает вопросы контроля, безопасности и ответственности, особенно в случаях, когда автоматизация касается финансовых операций или персональных бронирований.
Сообщается, что Google рассматривает эту функцию как добровольную опцию с постоянным наблюдением пользователя. Предполагается возможность в любой момент приостановить или отменить действия Gemini. На данный момент функция автоматизации экрана остается на этапе разработки и еще не включена в стабильные версии программного обеспечения.



