OpenAI показала, як нова функція computer use у застосунку Codex перетворює ШІ‑агента на повноцінного «співробітника», здатного самостійно керувати локальними програмами на Mac — від віртуальних машин до Spotify та нагадувань.
![]()
Від коду до будь‑яких задач на комп’ютері
Codex починав як інструмент для розробників: він умів запускати команди, писати код і автоматизувати технічні завдання. Комп’ютерне керування розширює цю роль: агент отримує доступ до графічного інтерфейсу, може «бачити» вікна, рухати курсор, клікати, вводити текст і працювати з будь‑яким застосунком, який встановлено на Mac.
Ключова зміна — Codex перестає бути лише інструментом у межах файлів і терміналу й переходить у площину реальної щоденної роботи: налаштування системи, тестування ПЗ, робота з офісними програмами, медіа та нагадуваннями.
Початкове налаштування зробили максимально простим. Після першого запуску computer use користувач бачить вікно з проханням надати дозвіл, а панель налаштувань анімовано «переїжджає» в системні Settings. Далі достатньо кількох перетягувань і авторизації змін — і агент може починати керувати дозволеними застосунками.
Багатозадачність: кілька курсорів і кілька застосунків одночасно
Один із показових сценаріїв — автоматизація рутинних технічних дій. Наприклад, створення нової віртуальної машини macOS в UTM зазвичай вимагає десятків кліків і проходження майстра встановлення. Тепер достатньо ввести запит на кшталт «створи нову Mac VM в UTM» — Codex відкриває застосунок, запускає процес, клікає по інтерфейсу, завантажує macOS і може навіть пройти початкове налаштування системи.
Особливість реалізації — окремий курсор агента, який не блокує користувача. На відміну від більшості систем віддаленого чи автоматизованого керування, Codex не «захоплює» екран повністю: людина може паралельно працювати в інших вікнах, поки агент виконує завдання у фоновому режимі.
Більше того, Codex здатен:
- одночасно керувати кількома застосунками;
- запускати паралельні задачі — наприклад, налаштовувати віртуальну машину, вмикати музику в Spotify і додавати нагадування в Reminders.
Фактично Mac перетворюється на середовище, де людина й агент розподіляють роботу: користувач зосереджується на важливих рішеннях, а Codex бере на себе кліки, форми, майстри налаштування й рутину в різних програмах.
Окрему увагу приділили візуальній поведінці курсора. Його рухи налаштовані так, щоб виглядати природно й «читабельно» для користувача: плавні криві, розворот стрілки в напрямку руху, ефект «плавання» екраном. Це не лише естетика — так легше зрозуміти, що саме агент робить у кожен момент.
Як Codex «бачить» інтерфейс: скріншоти плюс accessibility
Традиційні системи комп’ютерного керування покладаються переважно на скріншоти: модель аналізує зображення, визначає кнопки й поля та клікає за координатами. У Codex цей підхід доповнили ще одним шаром — даними з accessibility‑фреймворку macOS.
Це дає кілька важливих ефектів:
- агент отримує текстовий опис елементів інтерфейсу (назви кнопок, ролі елементів, структуру вікна);
- може «бачити» елементи, які зараз не в кадрі, але є в ієрархії інтерфейсу (наприклад, прокручені вище чи нижче);
- краще розуміє роль кожного елемента — кнопка, поле вводу, список тощо.
У результаті зростає точність виконання завдань: менше хибних кліків, краща навігація складними інтерфейсами, стабільніша робота в різних версіях програм.
Ще одна важлива деталь — завдяки опорі на текстові accessibility‑дані комп’ютерне керування може працювати не лише з мультимодальними моделями, які «бачать» зображення, а й з швидкими немультимодальними моделями, такими як Codex Spark. У такому режимі агент не обов’язково потребує скріншотів, а отже може діяти значно швидше.
У демонстрації з повідомленнями в Messages перехід на Spark робить computer use «надлюдським» за швидкістю: відкриття чату, набір тексту й відправка повідомлення відбуваються помітно швидше, ніж це зазвичай робить людина.
Безпека: доступ до застосунків — лише за дозволом
Можливість для ШІ‑агента клікати по будь‑яких вікнах і вводити текст на комп’ютері природно викликає питання безпеки. Розробники роблять акцент на гранульованих дозволах:
- Codex може керувати лише тими застосунками, які користувач явно дозволив.
- Під час першого звернення до кожної програми агент запитує дозвіл.
- Після підтвердження Codex отримує право «бачити» вікно й вводити текст тільки в цьому застосунку, без доступу до інших.
Це означає, що користувач може, наприклад, відкрити доступ до інструментів розробки, продуктивності чи фінансових таблиць, але не дозволяти агенту торкатися більш чутливих програм. Важливо й те, що система не «стрімить» увесь робочий стіл і не отримує автоматичного доступу до всіх файлів — модель працює в межах конкретних дозволених вікон.
Такий підхід покликаний знизити відчуття «тотального контролю» з боку ШІ й зробити використання computer use психологічно комфортнішим: користувач розуміє, де саме агент може діяти, а де — ні.
Від особистих сценаріїв до «надлюдської» швидкості
У повсякденних сценаріях computer use вже закриває типові болі користувачів: оновлення фінансових таблиць у Numbers, робота з численними веб‑застосунками, керування Apple‑нативними програмами. Там, де раніше доводилося вручну переходити між кількома вікнами й повторювати однакові дії, тепер можна делегувати все одному запиту.
З технічного боку важливо, що можливості комп’ютерного керування інтегровані в основні GPT‑моделі, доступні через API. Раніше для таких задач тренували окремі спеціалізовані моделі, тепер же ті самі базові моделі, які використовують розробники, можуть отримати доступ до computer use й будувати власні агенти з керування комп’ютером.
У планах — рух до справді надлюдської продуктивності: ціль — щоб агент міг керувати комп’ютером у 2–10 разів швидше за людину. У такому режимі використання computer use стає не просто зручністю, а фактично необхідністю для будь‑яких складних чи багатокрокових задач.
Поки що функція доступна на Mac, але OpenAI вже анонсує плани принести її й на Windows. Ідея проста: спробувати не на дрібних діях, а на найскладніших завданнях, які зазвичай «з’їдають» години й вимагають постійних перемикань між кількома застосунками. Саме там потенціал комп’ютерного керування проявляється найяскравіше.


