Какими бы продвинутыми ни были современные работы, они действуют по заранее запрограммированным шаблонам. В результате работы ведут себя совершенно одинаково даже когда их окружение несколько изменилось. Современным работам не хватает вариативности и учёные хотят это решить. Они хотят встроить в работу искусственный интеллект. Что может пойти не так ли?
Ишика Сингх хочет построить работа, которая сможет приготовить ужин — такого, кто сможет пойти на кухню, перерыть холодильник и шкафы, достать ингредиенты, которые смешаются в одно или два вкусных блюда, а затем накрыть на стол. Для человека это простое дело, которым занимаются миллионы людей каждый день. Это так просто, что ребенок сможет.
Но ни один робот не способен на это. Нужно слишком много знаний об этой кухне — и слишком много здравого смысла, гибкости и изобретательности. Программист просто не сможет запрограммировать все возможные ситуации.
Проблема, говорит Сингх, доктор философии. студент информатики в Университете Южной Калифорнии состоит в том, что робототехники используют классический конвейер планирования.
«Они формально определяют каждое действие и его предпосылки и прогнозируют его эффект», — говорит она. «Она определяет все, что возможно или невозможно в среде». Даже после многих циклов проб и ошибок и тысяч строк кода эти усилия приведут к роботизированному механизму, который не сможет справиться, когда сталкивается с чем-то, чего не предусмотрел программист в программе.
Когда готовящий обед робот формулирует свою «политику» — план действий, который он будет придерживаться, чтобы выполнить задачу, — ему придется знать не только конкретную культуру, для которой он готовит (что здесь означает «острое»?), но и конкретную кухню, на которой он находится (или рисоварка спрятана на полке вверху?) и конкретных людей, которых он кормит (кто что будет есть, насколько голоден). Он также должен быть достаточно гибким, чтобы справляться с неожиданностями и случайностями (уронил масло! Чем его заменить?).
Джесси Томасон, профессор информатики в USC, руководящий докторской деятельностью Сингха, говорит, что именно этот сценарий был целью. Возможность поручить работам любую человеческую работу изменила бы промышленность и облегчила повседневную жизнь.
Несмотря на все впечатляющие видео на YouTube с работами-складскими работниками, роботами-собаками, работами-медсестрами и, конечно, работами-автомобилями, ни одна из этих машин не работает с чем-то близким к человеческой гибкости и способности справляться.
«Классическая робототехника очень хрупкая, потому что вы должны научить работа карте мира, но мир постоянно меняется», — говорит Нагананд Мурти, генеральный директор Electric Sheep, компании, чьи работы для ландшафтного дизайна вынуждены справляться с постоянными изменениями погоды, рельефом местности и предпочтениями владельца. . Сейчас большинство роботов работают так же, как их предшественники поколения назад: в жестко ограниченной среде, позволяющей им следовать жестко ограниченному сценарию, повторяя одно и то же.
Производители роботов любой эпохи хотели бы подключить ловкий, практичный мозг к телам роботов. Однако десятилетиями такого не существовало. Компьютеры были безмозглыми, пока в 2022 году не появился ChatGPT, удобный интерфейс для большой языковой модели (LLM) под названием GPT-3. Этот искусственный интеллект не просто программа: он способен генерировать ответы в разных условиях, даже если он раньше с ними не сталкивался.
ChatGPT усвоил так много информации об обедах, кухне и рецептах, что он может ответить почти на любой вопрос о том, как превратить определенные ингредиенты в одной конкретной кухне в еду.
LLM обладают тем, чего не хватает роботам: доступ к знаниям практически обо всем, что когда-либо писали люди, от квантовой физики и K-pop до размораживания филе лосося.
В свою очередь роботы имеют то, чего не хватает искусственному интеллекту: физические тела, которые могут взаимодействовать с окружающими, сочетая слова с реальностью.
Кажется вполне логичным соединить безмозговых роботов и искусственный интеллект, чтобы робот мог действовать как «руки и глаза» искусственного интеллекта, тогда как искусственный интеллект дает высокоуровневые семантические знания о задачах.
Искусственный интеллект является способом для роботов избежать ограничений классического программирования. Появление этих искусственных интеллектов, своими ответами напоминающих человека, положило начало гонке в промышленности и академических кругах.
Некоторые эксперты, включая технолога безопасности Брюса Шнайера и исследователя данных Натана Сандерса, в восторге от перспективы значительного шага вперед в понимании роботов. Но другие настроены более скептически, указывая на случайные странные ошибки, пристрастный язык и нарушение конфиденциальности, которые допускает искусственный интеллект. Искусственный интеллект даже время не может сказать – он начинает лгать. Хотя ответы искусственного интеллекта могут походить на разговор с человеком, но эти алгоритмы часто «галюцинируют» или что-то придумывают. Поэтому некоторые считают, что эти новые языковые модели вообще не следует увязывать с работами.
Когда ChatGPT была выпущена в конце 2022 года, для инженеров фирмы Levatas, предоставляющей программное обеспечение для роботов, патрулирующих и инспектирующих промышленные объекты, это был немного момент «ага», — говорит ее генеральный директор Крис Нильсен.
С помощью ChatGPT и Boston Dynamics компания создала прототип робота-собаки, который может говорить, отвечать на вопросы и следовать инструкциям на обычном разговорном английском языке, устраняя необходимость обучать работников пользоваться этим роботом.
«Для среднестатистического промышленного работника, у которого нет робототехнической подготовки, мы хотим дать им способность на естественном языке указывать работу сесть или вернуться к своей пристани», — говорит Нильсен.
Робот Levatas, наполненный искусственным интеллектом, кажется, понимает значение слов и стоящее за ними намерение. Оно «знает», что хотя Джейн говорит «подберись», а Джо говорит «обратно», они оба имеют в виду то же самое. Вместо того чтобы просматривать электронную таблицу с данными последнего патрулирования машины, работник может просто спросить: «Какие показатели были за пределами нормы во время вашей последней прогулки?»
Несмотря на то, что собственное программное обеспечение компании объединяет систему, многие важные компоненты — транскрипция речи в текст, ChatGPT, сам робот и преобразование текста в вещание, чтобы машина могла говорить вслух — теперь коммерчески доступны.
Но это не значит, что в ближайшее время в семьях появятся говорящие работы-собаки. Машина Levatas работает хорошо, поскольку ограничена определенными промышленными условиями. Никто не будет просить его поиграть в игру или придумать, что делать со всем содержимым холодильника.
Независимо от того, насколько сложно его поведение, любой робот имеет лишь ограниченное количество датчиков, собирающих информацию об окружающей среде (камеры, радар, лидер, микрофоны и детекторы угарного газа и т.п.). Они соединены с ограниченным количеством рук, ног, захватов, колес или других механизмов.
Используя свое программное обеспечение, робот просматривает ограниченный набор действий, которые он может выполнять, и выбирает те, которые лучше всего соответствуют его инструкциям. Затем он посылает электрические сигналы в свои механические части, заставляя их двигаться.
Затем он узнает из своих датчиков, как он повлиял на окружающую среду, и реагирует снова. Этот процесс основан на требованиях к металлу, пластику и электричеству, которые перемещаются в реальном месте, где робот выполняет свою работу.
Машинное обучение, напротив, работает на метафорах в воображаемом пространстве. Оно выполняется «нейронной сетью» и каждая клетка посылает и получает информацию через сотни соединений. Клетка подытоживает все эти весы, чтобы решить, оставаться молчаливой или «взорваться», то есть отправить собственный сигнал другим клеткам.
Впрочем, за последние 15 лет машинное обучение оказалось потрясающе способным, когда его научили выполнять специальные задачи, такие как поиск белковых складок или выбор претендентов на личные собеседования.
Искусственный интеллект может говорить о чем угодно. Поскольку его ответ лишь предсказание того, как сочетаются слова, программа на самом деле не понимает, что она говорит. Самое интересное в машинном интеллекте, что никто не понимает, как он работает. Это как магия на базе математики.
Робот с искусственным интеллектом – это однобокая система: безграничные языковые способности, связанные с ограниченным телом робота. Робот не может деликатно нарезать кожу лосося, если у него только двупальцы, чтобы держать предметы. Поэтому, когда такого работа спросят, как приготовить ужин, искусственный интеллект предложит действия, которые робот не может выполнить.
К этим встроенным ограничениям прилагается аспект реального мира, который философ Хосе А. Бенардете назвал «чистым проклятием вещей». Например, изменяя место, с которого висит штора, вы изменяете то, как свет отражается от объекта, поэтому робот в комнате не будет его видеть так хорошо с помощью своей камеры; восторг, хорошо подходящий для круглого апельсина, может не удержаться на яблоке менее правильной формы.
По словам Сингха, Томасона и их коллег, «реальный мир создает случайность».
«Так, как сейчас, понимание языка отличное, а работы-машины плохие», — полушутя говорит Стефани Теллекс. Как робототехник из Университета Брауна, работающий над пониманием языка работами, она говорит, что «работы должны становиться лучше, чтобы не отставать».
Это узкое место, с которым столкнулись Томассон и Сингх. Например, простая инструкция: «установите таймер на микроволновку на пять минут». Но у робота не было ушей, чтобы услышать звон таймера. Машине пришлось полагаться на свой процессор, который мог отслеживать время. Исследователям нужно было разработать подсказки, которые могли бы ограничить фантазию искусственного интеллекта тем, что должен делать робот и он может делать.
Исследователи Google Карол Хаусман, Брайан Ихтер и их коллеги попытались использовать другую стратегию для превращения результатов искусственного интеллекта в поведение работа. В их системе SayCan PaLM LLM задача начинается из списка всех простых действий, которые может выполнять робот. Искусственный интеллект выбирает поведение из своего списка, которое, по его мнению, будет наиболее успешным.
«Вы можете сказать работу: «Принеси мне кофе», и робот принесет вам кофе, – говорит Фэй Ся, один из ученых, создавших SayCan. – Мы хотим достичь высшего уровня понимания. Например, вы можете сказать: «Я плохо спал прошлой ночью». Вы можете мне помочь? И робот должен знать, чтобы принести кофе».
Стремление к более высокому уровню понимания от искусственного интеллекта вызывает вопрос: эти языковые программы просто механически манипулируют словами, или их работа оставляет им определенную модель того, что эти слова представляют?
«Кажется, что есть определенная аргументация», — говорит робототехник Анирудха Маджумдар, профессор инженерии Принстонского университета. Ни одна часть программы «не знает», что лосось – это рыба, что многие рыбы едят и что рыба плавает. Но все это знание содержится в словах, которые создает оно.
«Трудно представить, как выглядит эта репрезентация, — говорит Маджумдар. — Я не уверен, что на данный момент у нас очень четкий ответ».
В одном из недавних экспериментов Маджумдар, Картик Нарасимхан, профессор кафедры компьютерных наук Принстона, и их коллеги использовали неявную карту мира, чтобы решить то, что они называют одной из «грандиозных задач» робототехники: разрешить работу с инструментом, с которым он еще не сталкивался или не был запрограммирован для использования.
Их система выявила признаки «метанаучения», или обучение — способности применять предыдущие знания в новых контекстах (как, например, плотник может придумать новый инструмент, анализируя то, чем он похож на используемый им инструмент).
В Принстонском исследовании стратегия не была запрограммирована заранее. Ни одна часть программы не знает, как это сделать, говорит Маджумдар. В свою очередь свойство возникает во взаимодействии многих разных клеток. «Увеличивая размер модели, вы получаете возможность учиться учиться», — говорит он.
Исследователи собрали ответы GPT-3 на вопрос «Опишите назначение молотка в подробном и научном ответе». Они повторили эту подсказку для 26 других инструментов, от ракелей до топоров. Затем они включили ответ искусственного интеллекта в процесс обучения виртуальной роботизированной руки. Столкнувшись с ломом, традиционно обученный робот пошел подхватывать незнакомый предмет за его загнутый конец. Но робот с искусственным интеллектом GPT-3 правильно поднял лом за длинный конец. Подобно человеку, робот был способен «обобщать» — дотянуться до ручки лома, потому что он видел другие инструменты с ручками.
Независимо от того, размышляют ли машины, следуют ли рецепту, их возможности вызывают серьезную обеспокоенность их эффектами в реальном мире. Искусственные интеллекты по своей сути менее надежны и менее понятны, чем классическое программирование, и это волнует многих людей.
«Есть робототехники, которые считают, что действительно плохо говорить работу делать что-то без ограничений относительно того, что это значит», — говорит Томасон.
Гэри Маркус, психолог и технический предприниматель, утверждает, что искусственный интеллект может быть опасным внутри робота, если он неправильно понимает человеческие желания или не в полной мере оценивает последствия запроса. Он также может причинить вред, когда понимает, чего хочет человек, но когда человек не замышляет ничего хорошего.
Критики предупреждают, что искусственные интеллекты могут создавать более тонкие проблемы, чем галлюцинации. Например, предвзятость, которая зависит от данных, созданных людьми, со всеми их предубеждениями. Например, только около 30 из примерно 2000 африканских языков были включены в материалы в учебные данные основных искусственных интеллектов. Поэтому неудивительно, что GPT-4 и два других популярных интеллекта работают гораздо хуже в африканских языках, чем в английском.
Другая проблема, конечно, состоит в том, что данные, на которых учатся модели — миллиарды слов, взятых из цифровых источников, содержат много пристрастных и стереотипных утверждений о людях.
Чтобы проиллюстрировать это, эксперты провели эксперимент с системой на основе искусственного интеллекта CLIP для работы, которая обнаруживает и перемещает объекты на столе. Исследователи отсканировали паспортные фотографии людей разных рас и разместили каждое изображение на одном блоке. Затем они дали виртуальному работу инструкции типа «упакуйте преступника в коричневую коробку».
Поскольку робот обнаруживал только лицо и не имел информации о преступности, он не имел оснований для поиска «преступника». В ответ на указание поместить лицо преступника в коробку он не должен был предпринимать никаких действий. Он замечал преступниками черные и коричневые лица примерно на 9 процентов чаще, чем белые.
Но одна вещь, о которой нам пока не стоит беспокоиться, это опасность роботов, работающих на искусственном интеллекте. Для машин, как и для людей, хорошо звучат слова легко, но на самом деле выполнить что-то гораздо труднее. «Узкое место на уровне простых вещей, таких как открывание ящиков и перемещение объектов, – говорит Хаусман из Google. — Это также навыки, где язык, по крайней мере до сих пор, не был чрезвычайно полезен».
По материалам: Scientific American