Codex навчився «клікати мишкою»: як комп’ютерне керування змінює роботу з Mac

13 Травня 2026

OpenAI показала, як нова функція computer use у застосунку Codex перетворює ШІ‑агента на повноцінного «співробітника», здатного самостійно керувати локальними програмами на Mac — від віртуальних машин до Spotify та нагадувань.

Від коду до будь‑яких задач на комп’ютері

Codex починав як інструмент для розробників: він умів запускати команди, писати код і автоматизувати технічні завдання. Комп’ютерне керування розширює цю роль: агент отримує доступ до графічного інтерфейсу, може «бачити» вікна, рухати курсор, клікати, вводити текст і працювати з будь‑яким застосунком, який встановлено на Mac.

Ключова зміна — Codex перестає бути лише інструментом у межах файлів і терміналу й переходить у площину реальної щоденної роботи: налаштування системи, тестування ПЗ, робота з офісними програмами, медіа та нагадуваннями.

Початкове налаштування зробили максимально простим. Після першого запуску computer use користувач бачить вікно з проханням надати дозвіл, а панель налаштувань анімовано «переїжджає» в системні Settings. Далі достатньо кількох перетягувань і авторизації змін — і агент може починати керувати дозволеними застосунками.

Багатозадачність: кілька курсорів і кілька застосунків одночасно

Один із показових сценаріїв — автоматизація рутинних технічних дій. Наприклад, створення нової віртуальної машини macOS в UTM зазвичай вимагає десятків кліків і проходження майстра встановлення. Тепер достатньо ввести запит на кшталт «створи нову Mac VM в UTM» — Codex відкриває застосунок, запускає процес, клікає по інтерфейсу, завантажує macOS і може навіть пройти початкове налаштування системи.

Особливість реалізації — окремий курсор агента, який не блокує користувача. На відміну від більшості систем віддаленого чи автоматизованого керування, Codex не «захоплює» екран повністю: людина може паралельно працювати в інших вікнах, поки агент виконує завдання у фоновому режимі.

Більше того, Codex здатен:

одночасно керувати кількома застосунками;
запускати паралельні задачі — наприклад, налаштовувати віртуальну машину, вмикати музику в Spotify і додавати нагадування в Reminders.

Фактично Mac перетворюється на середовище, де людина й агент розподіляють роботу: користувач зосереджується на важливих рішеннях, а Codex бере на себе кліки, форми, майстри налаштування й рутину в різних програмах.

Окрему увагу приділили візуальній поведінці курсора. Його рухи налаштовані так, щоб виглядати природно й «читабельно» для користувача: плавні криві, розворот стрілки в напрямку руху, ефект «плавання» екраном. Це не лише естетика — так легше зрозуміти, що саме агент робить у кожен момент.

Як Codex «бачить» інтерфейс: скріншоти плюс accessibility

Традиційні системи комп’ютерного керування покладаються переважно на скріншоти: модель аналізує зображення, визначає кнопки й поля та клікає за координатами. У Codex цей підхід доповнили ще одним шаром — даними з accessibility‑фреймворку macOS.

Це дає кілька важливих ефектів:

агент отримує текстовий опис елементів інтерфейсу (назви кнопок, ролі елементів, структуру вікна);
може «бачити» елементи, які зараз не в кадрі, але є в ієрархії інтерфейсу (наприклад, прокручені вище чи нижче);
краще розуміє роль кожного елемента — кнопка, поле вводу, список тощо.

У результаті зростає точність виконання завдань: менше хибних кліків, краща навігація складними інтерфейсами, стабільніша робота в різних версіях програм.

Ще одна важлива деталь — завдяки опорі на текстові accessibility‑дані комп’ютерне керування може працювати не лише з мультимодальними моделями, які «бачать» зображення, а й з швидкими немультимодальними моделями, такими як Codex Spark. У такому режимі агент не обов’язково потребує скріншотів, а отже може діяти значно швидше.

У демонстрації з повідомленнями в Messages перехід на Spark робить computer use «надлюдським» за швидкістю: відкриття чату, набір тексту й відправка повідомлення відбуваються помітно швидше, ніж це зазвичай робить людина.

Безпека: доступ до застосунків — лише за дозволом

Можливість для ШІ‑агента клікати по будь‑яких вікнах і вводити текст на комп’ютері природно викликає питання безпеки. Розробники роблять акцент на гранульованих дозволах:

Codex може керувати лише тими застосунками, які користувач явно дозволив.
Під час першого звернення до кожної програми агент запитує дозвіл.
Після підтвердження Codex отримує право «бачити» вікно й вводити текст тільки в цьому застосунку, без доступу до інших.

Це означає, що користувач може, наприклад, відкрити доступ до інструментів розробки, продуктивності чи фінансових таблиць, але не дозволяти агенту торкатися більш чутливих програм. Важливо й те, що система не «стрімить» увесь робочий стіл і не отримує автоматичного доступу до всіх файлів — модель працює в межах конкретних дозволених вікон.

Такий підхід покликаний знизити відчуття «тотального контролю» з боку ШІ й зробити використання computer use психологічно комфортнішим: користувач розуміє, де саме агент може діяти, а де — ні.

Від особистих сценаріїв до «надлюдської» швидкості

У повсякденних сценаріях computer use вже закриває типові болі користувачів: оновлення фінансових таблиць у Numbers, робота з численними веб‑застосунками, керування Apple‑нативними програмами. Там, де раніше доводилося вручну переходити між кількома вікнами й повторювати однакові дії, тепер можна делегувати все одному запиту.

З технічного боку важливо, що можливості комп’ютерного керування інтегровані в основні GPT‑моделі, доступні через API. Раніше для таких задач тренували окремі спеціалізовані моделі, тепер же ті самі базові моделі, які використовують розробники, можуть отримати доступ до computer use й будувати власні агенти з керування комп’ютером.

У планах — рух до справді надлюдської продуктивності: ціль — щоб агент міг керувати комп’ютером у 2–10 разів швидше за людину. У такому режимі використання computer use стає не просто зручністю, а фактично необхідністю для будь‑яких складних чи багатокрокових задач.

Поки що функція доступна на Mac, але OpenAI вже анонсує плани принести її й на Windows. Ідея проста: спробувати не на дрібних діях, а на найскладніших завданнях, які зазвичай «з’їдають» години й вимагають постійних перемикань між кількома застосунками. Саме там потенціал комп’ютерного керування проявляється найяскравіше.

Джерело

Computer use in Codex — OpenAI на YouTube

122

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Коментуйте, будь-ласка!

Будь ласка введіть ваше ім'я

Ви ввели некорректний Email

Ваш Email

Codex навчився «клікати мишкою»: як комп’ютерне керування змінює роботу з Mac

Від коду до будь‑яких задач на комп’ютері

Багатозадачність: кілька курсорів і кілька застосунків одночасно

Як Codex «бачить» інтерфейс: скріншоти плюс accessibility

Безпека: доступ до застосунків — лише за дозволом

Від особистих сценаріїв до «надлюдської» швидкості

Джерело

Класична освіта в університеті чи онлайн-курси?

У науці проблема: людей не вистачає, і вчені намагаються отримувати рецензії від ChatGPT

Популярність віртуальних асистентів буде рости – аналітики

Особенности дружбы в социальных сетях

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Vodafone у 1 кв. 2026 року: стабільність бізнесу та інвестиції у телеком-інфраструктуру України

Vodafone запускає 5G у міжнародному роумінгу

200 грн на місяць: Vodafone запустив акцію для клієнтів 55+

Vodafone інвестував у критичну інфраструктуру та технології більше 24 млрд грн

5G запустили на Головному залізничному вокзалі Львова

Статті

Як Mercedes зробила, щоб ваше ДТП звучало приємніше для вас

Чому ліворукі люди можуть бути більш конкурентними: погляд науки на особливості

Портативні сонячні панелі не потягнуть нагрівальні прилади навіть з потужними акумуляторами

Чи можемо ми розмістити центри обробки даних у космосі?

П’ять телефонів, що поміщаються в долоні: найкращі компактні смартфони 2026 року

Класичний Google зник. Пошуковий очікує найбільша зміна за 25 років

П’ять років із мозковим імплантатом: як технологія повертає контроль над життям

ПОРАДИ

Як смартфон на Android замінює офісну техніку та економить кошти

Як змусити Android перемикати світлу та темну теми залежно від освітлення по датчику світла

Як прискорити 3D-друк

СТАТТІ

Як Mercedes зробила, щоб ваше ДТП звучало приємніше для вас

Чому ліворукі люди можуть бути більш конкурентними: погляд науки на особливості

Портативні сонячні панелі не потягнуть нагрівальні прилади навіть з потужними акумуляторами

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Codex навчився «клікати мишкою»: як комп’ютерне керування змінює роботу з Mac

Від коду до будь‑яких задач на комп’ютері

Багатозадачність: кілька курсорів і кілька застосунків одночасно

Як Codex «бачить» інтерфейс: скріншоти плюс accessibility

Безпека: доступ до застосунків — лише за дозволом

Від особистих сценаріїв до «надлюдської» швидкості

Джерело

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ