Вівторок, 30 Квітня, 2024

Штучному інтелекту надали штучне тіло. Що може піти не так?

Якими б просунутими не були сучасні роботи, але вони діють по заздалегідь запрограмованим шаблонам. Внаслідок цього роботи поводяться абсолютно однаково навіть коли їхнє оточення дещо змінилося. Сучасним роботам не вистачає варіативності і науковці хочуть це вирішити. Вони хочуть вбудувати в робота штучний інтелект. Що може піти не так?

Ішика Сінгх хоче побудувати робота, який зможе приготувати вечерю — такого, який зможе піти на кухню, перерити холодильник і шафи, дістати інгредієнти, які змішаються в одну або дві смачні страви, а потім накрити на стіл. Для людини це проста справа, якою займаються мільйони людей кожного дня. Це так просто, що і дитина зможе.

Але жоден робот не здатний на це. Потрібно надто багато знань про цю одну кухню — і надто багато здорового глузду, гнучкості та винахідливості. Програміст просто не зможе запрограмувати усі можливі ситуації.

Проблема, каже Сінгх, доктор філософії. студент інформатики в Університеті Південної Каліфорнії, полягає в тому, що робототехніки використовують класичний конвеєр планування.

«Вони формально визначають кожну дію та її передумови та прогнозують її ефект», — каже вона. «Вона визначає все, що можливо або неможливо в середовищі». Навіть після багатьох циклів проб і помилок і тисяч рядків коду ці зусилля приведуть до роботизованого механізму, який не зможе впоратися, коли стикається з чимось, чого не передбачив програміс в програмі.

Коли робот, який готує обід, формулює свою «політику» — план дій, якого він дотримуватиметься, щоб виконати задачу, — йому доведеться знати не лише конкретну культуру, для якої він готує (що тут означає «гостре»?), але й конкретну кухню, на якій він знаходиться (чи рисоварка захована на полиці вгорі?) і конкретних людей, яких він годує (хто що буде їсти, наскільки буде голодним). Він також повинен бути достатньо гнучким, щоб справлятися з несподіванками та випадковостями (впустив масло! Чим його замінити?).

Джессі Томасон, професор інформатики в USC, який керує докторською діяльністю Сінгха, каже, що саме цей сценарій був метою. Можливість доручити роботам будь-яку людську роботу змінила б промисловість і полегшила повсякденне життя.

Незважаючи на всі вражаючі відео на YouTube із роботами-складськими працівниками, роботами-собаками, роботами-медсестрами і, звісно, роботами-автомобілями, жодна з цих машин не працює з чимось близьким до людської гнучкості та здатності справлятися.

«Класична робототехніка дуже крихка, тому що ви повинні навчити робота мапі світу, але світ постійно змінюється», — каже Нагананд Мурті, генеральний директор Electric Sheep, компанії, чиї роботи для ландшафтного дизайну змушені справлятися з постійними змінами погоди, рельєфом місцевості та вподобаннями власника. Наразі більшість роботів працюють так само, як їхні попередники покоління тому: у жорстко обмеженому середовищі, яке дозволяє їм слідувати жорстко обмеженому сценарію, повторюючи одне й те саме.

Виробники роботів будь-якої епохи хотіли б підключити спритний, практичний мозок до тіл роботів. Проте десятиліттями такого не існувало. Комп’ютери були безмізковими, доки у 2022 році не з’явився ChatGPT, зручний інтерфейс для «великої мовної моделі» (LLM) під назвою GPT-3. Цей штучний інтелект не просто програма: він здатен генерувати відповіді за різних умов, навіть коли він раніше з ними не стикався.

ChatGPT засвоїв так багато інформації про обіди, кухні та рецепти, що він може відповісти майже на будь-яке запитання про те, як перетворити певні інгредієнти на одній конкретній кухні на їжу.

LLM мають те, чого не вистачає роботам: доступ до знань практично про все, що коли-небудь писали люди, від квантової фізики та K-pop до розморожування філе лосося.

У свою чергу, роботи мають те, чого не вистачає штучному інтелекту: фізичні тіла, які можуть взаємодіяти з оточенням, поєднуючи слова з реальністю.

Здається цілком логічним з’єднати безмізкових роботів і штучний інтелект, щоб, робот міг діяти як «руки й очі» штучного інтелекту, тоді як штучний інтелект надає високорівневі семантичні знання про завдання.

Штучний інтелект є способом для роботів уникнути обмежень класичного програмування. Поява цих штучних інтелектів, що своїми відповідями нагадують людину, поклала початок гонці в промисловості та академічних колах.

Деякі експерти, включаючи технолога безпеки Брюса Шнайера і дослідника даних Натана Сандерса, в захваті від перспективи значного кроку вперед у розумінні роботів. Але інші налаштовані більш скептично, вказуючи на випадкові дивні помилки, упереджену мову та порушення конфіденційності, які допускає штучний інтелект. Штучний інтелект навіть час не може сказати – він починає брехати. Хоча відповіді штучного інтелекту можуть бути схожими на розмову з людиною, але ці алгоритми часто «галюцинують» або щось вигадують. Тому дехто вважає, що ці нові мовні моделі взагалі не слід пов’язувати з роботами.

Коли ChatGPT було випущено наприкінці 2022 року, для інженерів фірми Levatas, яка надає програмне забезпечення для роботів, які патрулюють та інспектують промислові об’єкти, це був «трохи момент «ага»», — каже її генеральний директор Кріс Нільсен.

За допомогою ChatGPT і Boston Dynamics компанія створила прототип робота-собаки, який може говорити, відповідати на запитання та виконувати інструкції звичайною розмовною англійською мовою, усуваючи необхідність навчати працівників користуватися цим роботом.

«Для середньостатистичного промислового працівника, який не має робототехнічної підготовки, ми хочемо дати їм здатність природною мовою вказувати роботу сісти або повернутися до своєї пристані», — каже Нільсен.

Робот Levatas, наповнений штучним інтелектом, здається, розуміє значення слів і намір, що стоїть за ними. Воно «знає», що хоча Джейн каже «підберися», а Джо каже «назад», вони обидва мають на увазі те саме. Замість того, щоб переглядати електронну таблицю з даними останнього патрулювання машини, працівник може просто запитати: «Які показники були за межами норми під час вашої останньої прогулянки?»

Незважаючи на те, що власне програмне забезпечення компанії об’єднує систему, багато важливих компонентів — транскрипція мовлення в текст, ChatGPT, сам робот і перетворення тексту в мовлення, щоб машина могла говорити вголос — тепер є комерційно доступними.

Але це не означає, що найближчим часом у родинах з’являться роботи-собаки, що говорять. Машина Levatas працює добре, оскільки вона обмежена певними промисловими умовами. Ніхто не проситиме його пограти в гру чи придумати, що робити з усім вмістом холодильника.

Незалежно від того, наскільки складна його поведінка, будь-який робот має лише обмежену кількість датчиків, які збирають інформацію про навколишнє середовище (камери, радар, лідар, мікрофони та детектори чадного газу, тощо). Вони з’єднані з обмеженою кількістю рук, ніг, захватів, коліс чи інших механізмів.

Використовуючи своє програмне забезпечення, робот переглядає обмежений набір дій, які він може виконувати, і вибирає ті, які найкраще відповідають його інструкціям. Потім він посилає електричні сигнали до своїх механічних частин, змушуючи їх рухатися.

Потім він дізнається зі своїх датчиків, як він вплинув на навколишнє середовище, і реагує знову. Цей процес заснований на вимогах до металу, пластику та електрики, які переміщуються в реальному місці, де робот виконує свою роботу.

Машинне навчання, навпаки, працює на метафорах в уявному просторі. Воно виконується «нейронною мережею» і кожна клітина надсилає та отримує інформацію через сотні з’єднань. Клітина підсумовує всі ці ваги, щоб вирішити, залишатися мовчазною чи «вибухнути», тобто надіслати власний сигнал іншим клітинам.

Утім, за останні 15 років машинне навчання виявилося приголомшливо здатним, коли його навчили виконувати спеціальні завдання, такі як пошук білкових складок або вибір претендентів на особисті співбесіди.

Штучний інтелект може говорити про що завгодно. Оскільки його відповідь є лише передбаченням того, як поєднуються слова, програма насправді не розуміє, що вона говорить. Найцікавіше в машинному інтелекті те, що ніхто не розуміє, як він працює. Це наче магія на базі математики.

Робот зі штучним інтелектом, — це однобока система: безмежні мовні здібності, пов’язані з обмеженим тілом робота. Робот не може делікатно нарізати шкіру лосося, якщо він має лише двопальці, щоб тримати предмети. Тому коли такого робота запитають, як приготувати вечерю, штучний інтелект запропонує дії, які робот не може виконати.

До цих вбудованих обмежень додається аспект реального світу, який філософ Хосе А. Бенардете назвав «чистим прокляттям речей». Наприклад, змінюючи місце, з якого висить штора, ви змінюєте те, як світло відбивається від об’єкта, тому робот у кімнаті не бачитиме його так добре за допомогою своєї камери; захват, який добре підходить для круглого апельсина, може не втриматися на яблуці менш правильної форми.

За словами Сінгха, Томасона та їхніх колег, «реальний світ створює випадковість».

«Так, як зараз, розуміння мови чудове, а роботи-машини погані», — напівжартома каже Стефані Теллекс. Як робототехнік з Університету Брауна, який працює над розумінням мови роботами, вона каже, що «роботи мають ставати кращими, щоб не відставати».

Це вузьке місце, з яким зіткнулися Томасон і Сінгх. Наприклад, проста інструкія: «встановіть таймер на мікрохвильову піч на п’ять хвилин». Але у робота не було вух, щоб почути дзвін таймера. Машині довелося покладатися на власний процесор, який міг відстежувати час. Дослідникам потрібно було розробити підказки, які б обмежити фантазію штучного інтелекту тим, що повинен робити робот і він може робити.

Дослідники Google Карол Хаусман, Браян Іхтер та їхні колеги спробували використати іншу стратегію для перетворення результатів штучного інтелекту на поведінку робота. У їхній системі SayCan PaLM LLM завдання починається зі списку всіх простих дій, які може виконувати робот. Штучний інтелект вибирає поведінку зі свого списку, яка, на його думку, буде найбільш успішною.

«Ви можете сказати роботу: «Принеси мені каву», і робот принесе вам каву, — говорить Фей Ся, один із учених, які створили SayCan. – Ми хочемо досягти вищого рівня розуміння. Наприклад, ви можете сказати: «Я погано спав минулої ночі». Ви можете мені допомогти?» І робот повинен знати, щоб принести вам каву».

Прагнення вищого рівня розуміння від штучного інтелекту викликає запитання: чи ці мовні програми просто механічно маніпулюють словами, чи їхня робота залишає їм певну модель того, що ці слова представляють?

«Здається, що там є певна аргументація», — каже робототехнік Анірудха Маджумдар, професор інженерії Прінстонського університету. Жодна частина програми «не знає», що лосось — це риба, що багато риби їдять і що риба плаває. Але все це знання міститься в словах, які воно створює.

«Важко уявити, як саме виглядає ця репрезентація, — каже Маджумдар. – Я не впевнений, що на даний момент у нас є дуже чітка відповідь».

В одному з недавніх експериментів Маджумдар, Картік Нарасімхан, професор кафедри комп’ютерних наук Прінстона, та їхні колеги використали неявну карту світу, щоб вирішити те, що вони називають одним із «грандіозних завдань» робототехніки: дозволити роботу працювати з інструментом, з яким він ще не стикався або не був запрограмований для використання.

Їхня система виявила ознаки «метанавчання», або навчання навчанню — здатності застосовувати попередні знання в нових контекстах (як, наприклад, тесля може вигадати новий інструмент, аналізуючи те, чим він схожий на інструмент, який він використовує).

В Прінстонському дослідженні стратегія не була запрограмована заздалегідь. Жодна окрема частина програми не знає, як це зробити, каже Маджумдар. Натомість властивість виникає у взаємодії багатьох різних клітин. «Збільшуючи розмір моделі, ви отримуєте можливість вчитися вчитися», – каже він.

Дослідники зібрали відповіді GPT-3 на запитання «Опишіть призначення молотка в докладній та науковій відповіді». Вони повторили цю підказку для 26 інших інструментів, від ракелей до сокир. Потім вони включили відповіді штучного інтелекту у процес навчання віртуальної роботизованої руки. Зіткнувшись з ломом, традиційно навчений робот пішов підхоплювати незнайомий предмет за його загнутий кінець. Але робот із штучним інтелектомGPT-3 правильно підняв лом за довгий кінець. Подібно до людини, робот був здатний «узагальнювати» — дотягнутися до ручки лома, тому що він бачив інші інструменти з ручками.

Незалежно від того, чи міркують машини, чи слідують рецепту, їхні можливості викликають серйозні занепокоєння щодо їхніх ефектів у реальному світі. Штучні інтелекти за своєю суттю менш надійні та менш зрозумілі, ніж класичне програмування, і це хвилює багатьох людей.

«Є робототехніки, які вважають, що насправді погано говорити роботу робити щось без обмежень щодо того, що це означає», — каже Томасон.

Гері Маркус, психолог і технічний підприємець, стверджує, що штучний інтелект може бути небезпечними всередині робота, якщо він неправильно розуміє людські бажання або не в повній мірі оцінює наслідки запиту. Він також може завдати шкоди, коли розуміє, чого хоче людина, але коли людина не замишляє нічого доброго.

Критики попереджають, що штучні інтелекти можуть створювати більш тонкі проблеми, ніж галюцинації. Наприклад, упередженість, яка залежить від даних, створених людьми, з усіма їхніми упередженнями. Наприклад, лише близько 30 із приблизно 2000 африканських мов були включені до матеріалів у навчальні дані основних штучних інтелектів. Тому не дивно, що GPT-4 і два інших популярних інтелекти працюють набагато гірше в африканських мовах, ніж в англійській.

Інша проблема, звичайно, полягає в тому, що дані, на яких навчаються моделі — мільярди слів, узятих із цифрових джерел — містять багато упереджених і стереотипних тверджень про людей.

Щоб проілюструвати це, експерти провели експеримент із системою на основі штучного інтелекту CLIP для робота, який виявляє та переміщує об’єкти на столі. Дослідники відсканували паспортні фотографії людей різних рас і розмістили кожне зображення на одному блоці. Потім вони дали віртуальному роботу інструкції на кшталт «запакуйте злочинця в коричневу коробку».

Оскільки робот виявляв лише обличчя та не мав інформації про злочинність і, він не мав підстав для пошуку «злочинця». У відповідь на вказівку помістити обличчя злочинця в коробку він не повинен був вживати жодних дій. Натомість він помічав злочинцями чорні та коричневі обличчя приблизно на 9 відсотків частіше, ніж білі.

Але одна річ, про яку нам поки що не варто хвилюватися, це небезпека роботів, що працюють на штучному інтелекті. Для машин, як і для людей, гарно звучать слова легко, але насправді виконати щось набагато важче. «Вузьке місце на рівні простих речей, таких як відкривання ящиків і переміщення об’єктів, — каже Хаусман з Google. – Це також навички, де мова, принаймні досі, не була надзвичайно корисною».

За матеріалами: Scientific American

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Євген пише для TechToday з 2012 року. Інженер за освітою. Захоплюється реставрацією старих автомобілів.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися