Четвер, 11 Червня, 2026

Фізичний AI виходить у місто: навіщо роботам world models і API світлофорів

Епізод 999 подкасту Super Data Science з Джоном Кроґном став для гостьї, інженерки та авторки книжки AI Engineering Чіп Х’єн поворотною точкою в розмові про майбутнє штучного інтелекту. Після років роботи з продакшн‑системами LLM вона дедалі більше зміщує фокус із «чистого софту» на фізичний AI, роботів і так звані world models. Її базова теза проста й доволі радикальна: вартість написання програм наближається до нуля, тож наступний великий фронт — це фізичний світ, і його доведеться змінювати під машини не менше, ніж самі алгоритми.

Коли софт стає безкоштовним: що лишається будувати

Х’єн описує знайоме багатьом технічним фахівцям відчуття «екзистенційної кризи». Потужні моделі вже сьогодні дозволяють прописати специфікацію продукту, прогнати її через AI і на виході отримати робочий застосунок або сайт. Генерація коду стала дешевою, а в традиційному сенсі «кількість рядків коду» більше нічого не означає.

Вона формулює це максимально жорстко: вартість побудови софту наближається до нуля. Якщо код генерувати дешево, постає питання — що в цій реальності взагалі означає «будувати софт» і де там цінність. Її власний експеримент з невеликим сайд-проєктом це ілюструє: простий корисний сервіс для пошуку цікавих GitHub‑репозиторіїв швидко зібрав сотні тисяч переглядів, але вже наступного дня інша людина відтворила його майже один в один — теж за допомогою AI.

Цей досвід підштовхує до висновку: будь-який існуючий сьогодні софт можна клонувати майже миттєво. У світі, де копіювання продукту займає день, а не роки, довготривала цінність зміщується з «ще одного фреймворку» до складніших, менш копійованих задач. І для Х’єн дедалі очевидніше, що значна частина таких задач — у фізичному світі.

Від цифрових агентів до роботів: агент як єдина модель

Переходячи до фізичного AI, Х’єн не розглядає його як щось відокремлене від «цифрових» агентів. Навпаки, вона наполягає, що між ними набагато більше спільного, ніж здається.

У центрі — поняття агента. Агент — це система, яка взаємодіє з середовищем: сприймає його, діє в ньому й отримує зворотний зв’язок. Така схема однаково добре описує як LLM‑агента в браузері, так і автономний автомобіль на дорозі.

У цифровому середовищі агент може:

  • читати й записувати дані,
  • працювати в терміналі чи IDE,
  • ходити вебом, робити запити до API, аналізувати відповіді.

Це світ, де середовище, принаймні теоретично, добре задокументоване: є специфікації API, формати відповідей, коди помилок.

У фізичному середовищі картина інша. Тут:

  • середовище — це дорога, тротуар, двері, кнопка світлофора;
  • агент — наприклад, автомобіль або кур’єрський робот;
  • дії — повернути ліворуч, загальмувати, прискоритися, натиснути кнопку.

Формально структура та сама: «сприйняти — спланувати — діяти — отримати фідбек». Але фізичний світ принципово погано описаний. Ніхто не дає роботу документації формату: «якщо прикласти стільки-то ньютонів до яйця, воно розіб’ється так-то». Люди набувають це розуміння поступово, завдяки досвіду та «гаптичній інтуїції». Машинам же доводиться вчитися з нуля.

Х’єн робить ще один крок: проблеми AI‑агентів у цифровому світі — оркестрація, робота з недосконалими API, помилки, розриви в контексті — багато в чому римуються з викликами роботів у фізичному світі. Тож погляд через призму «агент + середовище» допомагає мислити обидва домени як продовження одного й того ж завдання.

Reasoning проти руху: дві половини роботичної «розумності»

Одну з найяскравіших рамок Х’єн запозичує з виступу керівника китайської робототехнічної компанії, яка, за її словами, є одним із небагатьох прибуткових виробників гуманоїдних роботів. Він розділяє «роботичний інтелект» на дві складові: reasoning (міркування) та movement (рух).

Reasoning — це вміння подивитися на ситуацію, зрозуміти завдання й побудувати послідовний план дій. Для робота це може означати: «підійти до дверей, відчинити, взяти предмет, повернутися». Х’єн підкреслює, що саме в цій частині прориви foundation‑моделей дають уже відчутний ефект. Моделі стають щораз кращими в побудові планів, якщо мають достатнє уявлення про світ.

Movement — зовсім інша історія. Навіть ідеальний план нічого не вартий, якщо робот робить один крок, перечіплюється за дріт і падає. У людському сприйнятті це виглядає просто як «робот дурний», хоча насправді проблема не в інтелекті, а в «тілі» й керуванні ним.

За останні роки, каже Х’єн, тут відбувся помітний прогрес. Вона згадує показові демо: флот роботів, які виконують складні рухові комбінації — умовно, «кунг‑фу» — комбінуючи набір заздалегідь записаних «атомарних» рухів. Ще цікавіша обіцянка компанії: протягом найближчих місяців навчити роботів генерувати довільні рухи «на льоту», без попереднього «захоплення» кожної пози.

У цій двочастинній схемі видно, де фізичний AI вже сильно спирається на досягнення LLM‑епохи (reasoning), а де ще потребує окремих проривів у механіці, керуванні та сенсориці (movement). І де, на думку Х’єн, відкривається широкий простір для інженерів нового покоління.

World models: спроба закодувати фізичну реальність

Щоб AI міг впевнено планувати дії у фізичному світі, йому потрібно не лише «тіло», а й внутрішня модель цього світу. Звідси інтерес до так званих world models — моделей, які мають кодувати фізично коректну інформацію про середовище, щоб AI міг у ньому оперувати.

Х’єн описує це як активний напрям, де «багато ініціатив» намагаються побудувати саме такі моделі. Ідея не нова: намагання «змоделювати світ» існують давно, але сучасний підхід — використовувати глибинні нейромережі як основу цих моделей — зробив її знову гарячою темою.

У фокусі не просто симуляція заради симуляції. Йдеться про те, щоб:

  • кодувати у моделі фізично адекватні причинно‑наслідкові зв’язки;
  • давати агентам можливість планувати наслідки своїх дій до того, як вони щось зіпсують у реальному світі;
  • зменшити потребу в небезпечних або дорогих фізичних експериментах, навчаючи роботів переважно у віртуальних середовищах.

Х’єн прямо пов’язує це з «розумовою» частиною роботичного інтелекту. Якщо моделям вдасться надійно кодувати фізичні властивості середовища, то їхня здатність планувати й міркувати в реальному світі різко зросте. Але навіть найкращий world model не вирішує проблему руху — вона лишається на боці робототехніки та управління.

Роботам складно не лише думати, а й взаємодіяти з містами

Окремий пласт проблем фізичного AI, який Х’єн підкреслює, — це не «розум» і не «залізо», а сама інфраструктура світу навколо. Люди будували міста, дороги й будівлі для себе, не думаючи про те, як ними користуватимуться машини.

Один із найяскравіших прикладів — дрібний, але показовий: кур’єрські роботи, які не можуть самі перейти дорогу. Відео, що стало вірусним, показує малий робот, який просить перехожого натиснути кнопку пішохідного світлофора, бо сам фізично не здатен це зробити.

Співрозмова з працівником однієї з таких компаній відкрила ще один шар: один із найскладніших елементів усього ланцюга — як змусити робота взаємодіяти з міською інфраструктурою. І тут з’являється несподіваний, майже «цифровий» розв’язок: деякі міста вже мають API до світлофорів.

Це означає, що:

  • робот може не тиснути фізичну кнопку;
  • він звертається до API міського світлофора;
  • «натискання кнопки» відбувається як виклик API, і світло для переходу вмикається.

Для Х’єн це не просто кумедний факт, а зразок того, що вона називає «AI‑ready» світом. Так само, як ми робимо веб‑сервіси дружніми до програмних агентів через API та документацію, фізичне середовище теж можна (і, ймовірно, доведеться) адаптувати під машинних агентів.

Ідея проста, але далекосяжна:

  • ми не лише «покращуємо AI»,
  • ми робимо сам світ таким, щоб AI міг у ньому безпечно й ефективно діяти — через сенсори, стандартизовані протоколи, окремі шари безпеки й прав доступу.

Світлофори з API — перший натяк на те, як можуть еволюціонувати цілі міста.

Чому наступний великий фронт — фізичний світ

Коли вартість написання софту падає до нуля, гонка за ще однією бібліотекою або черговим SaaS‑клоном стає програшною стратегією. Х’єн не заперечує, що в цифровому просторі досі є відкриті завдання, але наголошує: швидкість, з якою AI «закриває» традиційні софтверні ніші, робить ставку лише на них дедалі ризикованішою.

Фізичний світ, навпаки, опирається автоматизації одразу на кількох рівнях:

  • складність руху й керування реальними тілами;
  • відсутність явної «документації» до всього, від яєць до дитячих колясок;
  • інерція інфраструктури, яку важко перебудувати під машини;
  • висока вартість помилок («ціна фізично помилитися», як каже Кроґн).

Саме поєднання цих факторів робить фізичний AI, world models і «AI‑ready» міста полем, де цінність не знецінюється миттєвим клонуванням. Системи, що одночасно:

  • розуміють фізику середовища,
  • уміють планувати в ньому,
  • рухаються безпечно й надійно,
  • інтегровані з інфраструктурою через стандартизовані інтерфейси,

— будуть не просто черговим «додатком до LLM», а частиною нової, набагато глибшої взаємодії між AI і матеріальною реальністю.

Для інженерів і містопланувальників це означає одне: фронт робіт зміщується. І, якщо слідувати логіці Х’єн, найцікавіші завдання наступного десятиліття лежатимуть не в тому, щоб ще раз переписати інтерфейс терміналу або запустити новий «агентний фреймворк», а в тому, щоб навчити машини жити в наших містах — і наші міста жити з машинами.


Джерело

YouTube: What’s Left to Build When Software Is Free (with Chip Huyen)

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті