Середа, 17 Червня, 2026

Комп’ютер як сервіс: чому Codex вже працює швидше за вас

Коли дослідниця OpenAI Теджал Патвардхан говорить про «комп’ютерне використання» моделей, вона описує не абстрактний майбутній агент, а те, що всередині компанії вже сприймають як буденність. У розмові в подкасті OpenAI з ведучим Ендрю Мейном вона розповідає, як змінилися можливості Codex‑подібних систем: від перших експериментів до режиму, де модель виконує реальні дії у вашому середовищі й часто робить це краще та швидше за людину.

Від тестів коду до повноцінних дій на вашому комп’ютері

Початкові бенчмарки на кшталт SWE‑bench перевіряли здатність моделей виправляти помилки в Python‑проєктах, писати патчі й проходити юніт‑тести. З погляду сьогоднішніх можливостей це виглядає доволі лінійно: модель читає код, генерує зміну, повертає результат.

Тепер картина інша. Щоб адекватно оцінити, як працює Codex і його наступники, доводиться вимірювати вже не лише «якість відповіді», а й поведінку цілого агента в живому середовищі.

Патвардхан описує це так: якщо потрібно протестувати Codex, модель не просто пише текст чи код у вакуумі. Вона викликає API, здійснює дії на вашому комп’ютері й у браузері, створює артефакти, пише, запускає та виконує код. Це вже ближче до «операційної системи як сервісу», де LLM виступає у ролі високорівневого користувача, що керує всіма інструментами під капотом.

Для дослідників це створює непросту задачу: більше не вистачає статичного тесту, що завершується за хвилини. Треба будувати інфраструктуру, яка відслідковує ланцюжок викликів, взаємодію з файловою системою, браузером, сервісами та перевіряє, чи дійшов агент до правильної цілі.

Пошук по всьому репозиторію й робота з локальними файлами

Одне з ключових зрушень, про яке говорить Патвардхан, стосується контексту. Тривалий час розробники гналися за більшим контекстним вікном: десятки тисяч токенів, сотні тисяч, потім ще більше. Здавалося логічним просто «накормити» модель максимальною кількістю інформації, а далі вона розбереться.

Нові експерименти в OpenAI змінили цей підхід. Замість того, щоб намагатися втиснути весь код у промпт, модель працює ближче до того, як це робить людина‑інженер: шукає, відкриває, фільтрує й звужує інформацію.

Патвардхан пояснює, що зараз модель може шукати по всьому репозиторію й знаходити потрібні файли, розуміючи при цьому контекст, де саме вносяться зміни. Важливо не лише знайти фрагмент коду, а й усвідомити, як він вписується в загальну архітектуру, які модулі залежать один від одного і де правка не зламає інші частини системи.

Цей підхід виходить далеко за межі коду. Внутрішні користувачі Codex у OpenAI можуть завантажити свою локальну файлову систему: презентації, документи, старі чернетки, повідомлення. Модель потім шукає в цьому масиві даних через tool‑calls, фактично «grep‑ить» по особистому робочому простору користувача.

Саме тому команда більше не вважає контекстне вікно жорстким обмеженням. Якщо модель уміє сама діставати релевантні фрагменти з локальних і хмарних джерел, не потрібно одразу подавати їй усе. Достатньо доступу до файлової системи і надійних інструментів пошуку та навігації.

Переваги моделей над людиною: конектори, плагіни й «кліки без кліків»

Ключова теза Патвардхан звучить доволі радикально: моделі вже мають деякі переваги над людиною в керуванні комп’ютером.

Перша перевага — швидкість взаємодії із сервісами. Замість того, щоб відкривати веб‑інтерфейс, переходити між вкладками, шукати потрібну сторінку, копіювати дані, людина‑користувач витрачає десятки дрібних дій. Модель натомість може викликати конектор чи плагін, який напряму звертається до потрібного сервісу по API. Це набагато швидше, ніж «кліки мишкою» й ручне копіювання.

Друга перевага — навігація. Якщо модель навчити працювати з браузером чи десктопом через accessibility tree або через код, вона може робити це фізично швидше, ніж людина. Для неї кожна дія — програмна операція, яку можна виконати в мілісекундах, без притаманних людині затримок, помилкових кліків чи плутанини у вкладках.

У підсумку виходить парадоксальна ситуація: традиційно ми сприймали ПК як інструмент, яким людина користується для пришвидшення роботи. Тепер з’являється шар над цим — модель, яка користується самим комп’ютером так, ніби це просто ще один інтерфейс.

Від Operator до tipping point: що змінилося

Перші спроби перетворити LLM на повноцінних десктоп‑агентів в OpenAI виявилися радше демо, ніж масовим продуктом. Патвардхан згадує запуски Operator і ChatGPT agent: вони були корисними як демонстрація можливостей, але мали критичний недолік — занадто велику затримку.

Моделі були надто повільними для повсякденного використання. Коли між кожною дією агента проходить помітний проміжок часу, користувач швидко повертається до звичної мишки й клавіатури.

За словами Патвардхан, це вже змінилося: команда вважає, що досягнуто tipping point — критичної межі, після якої використання моделі для керування комп’ютером стає практично доцільнішим, ніж ручна робота. Йдеться не про абстрактні досліди, а про звичайні офісні сценарії.

Патвардхан наводить типові завдання: «прочитай мій Slack» чи «розклади мені календар». Для неї сьогодні швидше доручити це моделі, ніж робити самій. Агенти можуть не просто відкрити месенджер чи календар, а й:

  • переглянути потік непрочитаних повідомлень;
  • пріоритизувати важливе;
  • зібрати контекст;
  • скласти розклад, оптимізувавши, наприклад, бронювання кімнат.

І все це — у режимі, який вона описує як уже практично зручніший за ручне користування.

Попри це, Патвардхан визнає: багато хто до такого повороту не готовий і просто ще не спробував. Значна частина цих можливостей з’явилася зовсім недавно, і до них ще не встигли звикнути навіть активні користувачі AI‑сервісів.

Оцінити «комп’ютерне використання» складніше, ніж здається

Для Frontier evals‑команди, яку очолює Патвардхан, новий рівень «комп’ютерного використання» означає складну методологічну задачу. Статичні бенчмарки на кшталт «скільки задач із тесту вирішила модель» більше не відображають того, що відбувається в реальних сценаріях.

Коли агент може працювати годинами, днями або навіть тижнями, взаємодіючи з файловими системами, браузерами, сервісами й API, звичайний автоматизований тест повинен або чекати стільки ж, або намагатися передбачити результат за проміжними сигналами. Усередині OpenAI, за словами Патвардхан, моделі дійсно запускалися на дуже довгі періоди, щоб виконувати роботу — але так отримувати зворотний зв’язок надто повільно.

У цій ситуації Frontier evals змушені комбінувати кілька підходів. По‑перше, будувати складні цифрові середовища для агентів, де можна більш‑менш автоматизовано перевіряти, чи досягнута ціль (наприклад, потрібний стан файлової системи, вдале завершення процедури, коректна зміна у великому кодовому базисі). По‑друге, опиратися на продакшн‑дані: дивитися, як живі користувачі застосовують Codex і подібні моделі, які завдання делегують і що реально працює.

Окремий виклик — час. Чим довше триває завдання для агента, тим повільніше команда отримує метрику й тим більше доводиться покладатися на прогнозування за «коротшими» сигналами, щоб керувати розробкою, не чекаючи тижневих запусків.

Коли ваш комп’ютер стає сервісом

Патвардхан відверто говорить, що в межах OpenAI вона намагається доручати моделям «перший прохід» майже в усьому: від написання Slack‑повідомлень до планування експериментів і операційних задач. А те, що модель ще не робить добре, часто перетворюється на новий eval — щоб у майбутньому вона навчилася виконувати й цю роботу.

У поєднанні з можливістю шукати по всіх ваших файлах, навігувати репозиторії, керувати браузером і сервісами через конектори, сьогоднішній Codex‑клас виглядає не як «розумний автодоповнювач коду», а як шар між людиною й комп’ютером.

У цьому шарі:

  • ваш десктоп і браузер перетворюються на кероване середовище для агента;
  • локальна файловa система стає базою знань, яку модель уміє ефективно обшукувати;
  • зовнішні сервіси доступні через API так само природно, як для вас — через мишку та клавіатуру.

За словами Патвардхан, люди часто недооцінюють цю зміну. Багато хто досі мислить категоріями «чат‑бота, який іноді галюцинує», у той час як усередині Frontier evals уже працюють із системами, здатними тижнями вести реальну роботу в цифровому середовищі.

Чи стане звичкою фраза «зроби це замість мене на моєму комп’ютері» так само швидко, як ми колись звикли до пошукових запитів? У OpenAI, судячи з оцінок Патвардхан, вважають, що tipping point уже пройдений. Решта — справа часу й готовності користувачів віддати комп’ютер «в оренду» моделі.


Джерело

Подкаст OpenAI — «Why Tejal Patwardhan stopped underestimating the models – Episode 21»

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті