Microsoft сделала первый шаг к человекоподобному искусственному интеллекту: создан искусственный интеллект, понимающий содержимое изображения и решающий визуальные задачи

3 марта 2023

Исследователи из Microsoft представили искусственный интеллект Kosmos-1. Это мультимодальная модель, которая может анализировать содержимое изображения, решает визуальные головоломки, выполняет визуальное распознавание текста, проходит визуальные тесты IQ и понимает инструкции на естественном языке. Исследователи считают, что мультимодальный искусственный интеллект, объединяющий различные режимы ввода, такие как текст, аудио, изображения и видео, является ключевым шагом в создании искусственного общего интеллекта (AGI). AGI – это тот тип искусственного интеллекта, который будет работать на уровне человеческого.

«Будучи базовой частью интеллекта, многомодальное восприятие является необходимостью для достижения всеобщего искусственного интеллекта с точки зрения получения знаний и привязки к реальному миру», — пишут исследователи в своей научной статье «Язык — не все, что вам нужно: согласование восприятия с языковыми моделями».

Визуальные примеры работы Kosmos-1 показывают, как модель анализирует и отвечает на вопросы о них, читает текст с изображения, пишет подписи к изображениям и выполняет тест на визуальный IQ с точностью 22–26 процентов.

Пока СМИ шумят новостями о текстовом искусственном интеллекте, некоторые эксперты по искусственному интеллекту указывают на мультимодальный искусственный интеллект как на потенциальный путь к общему искусственному интеллекту (AGI) — гипотетической технологии, которая якобы сможет заменить людей в любой интеллектуальной задаче и любой интеллект. работе.AGI является заявленной целью OpenAI – ключевого бизнес-партнера Microsoft в этой сфере.

В этом случае «Космос-1» выглядит чисто проектом Microsoft без участия OpenAI. Исследователи называют свое творение «мультимодальной большой языковой моделью» (MLLM), поскольку ее корни лежат в обработке естественного языка, таких как ChatGPT используется только для текста.

Чтобы Космос-1 принимал входящее изображение, исследователи должны сначала перевести изображение в специальную серию токенов (в основном текст), которые может понять его обширная языковая модель (LLM).

Корпорация Майкрософт обучала Kosmos-1, используя данные из интернета, включая отрывки из The Pile (текстовый ресурс на английском языке на 800 ГБ) и Common Crawl. После обучения они оценили возможности Космоса-1 по нескольким тестам, включая понимание языка, создание языка, классификацию текста без оптического распознавания символов, создание подписей к изображениям, визуальные ответы на вопросы, ответы на вопросы на веб-странице и классификацию изображений. По данным Microsoft, во многих из этих тестов Космос-1 превзошел самые современные модели.

Особый интерес представляет производительность Космоса-1 по программе Raven’s Progressive Reasoning, измеряющей визуальный IQ, представляя последовательность фигур и прося участника завершить последовательность.

Чтобы протестировать Космос-1, исследователи предоставили ему заполненный тест и спросили, правильный ли ответ. Космос-1 смог правильно ответить на вопросы теста Raven только в 22 процентах случаев (26 процентов с более тщательной настройкой).Ошибки в методологии могли повлиять на результаты, но Космос-1 превзошел случайную возможность (17 процентов) в тесте Raven IQ.

И все же, несмотря на то, что Kosmos-1 представляет собой ранние шаги в мультимодальной сфере, легко вообразить, что будущая оптимизация может принести еще более значимые результаты, позволяя искусственному интеллекту воспринимать любые формы медиа и действовать с ними, что значительно расширит. способности искусственных ассистентов.

В будущем исследователи говорят, что они хотели бы увеличить размер модели Космос-1 и интегрировать возможность речи. Microsoft говорит, что планирует сделать Kosmos-1 доступным разработчикам.

Теги
Технологии

744

В Южной Корее через 9 лет снова начали продавать новые iPhone 3GS

Обзор повербанка ColorWay Arrival 4400 мА·ч Grey

Программист от скуки создал приложение, которое превратит ваш Android в iPhone X

Vodafone запустил пятый курс по подготовке Big Data аналитиков

Vodafone

Vodafone в 1 кв. 2026: стабильность бизнеса и инвестиции в телеком-инфраструктуру Украины

Vodafone запускает 5G в межнациональном роуминге

200 грн в месяц: Vodafone запустил акцию для клиентов 55+

Vodafone инвестировал в критическую инфраструктуру и технологии более 24 млрд. грн

5G запустили на Главном железнодорожном вокзале Львова

Статті

Как испанский компьютерный вирус принес в мир антивирусный сервис Virus Total, приобретенный Google

Марсианский вертолет NASA не просто летает, но и преодолевает звуковой барьер

Ваши гаджеты собирают данные, которые могут улучшить лечение – говорят ученые

Как Mercedes сделала, чтобы ваше ДТП звучало приятнее для вас

Почему леворукие люди могут быть более конкурентными: взгляд науки на особенности

Портативные солнечные панели не потянут нагревательные приборы даже с мощными аккумуляторами

Можем ли мы разместить центры обработки данных в космосе?

ПОРАДИ

Какие настройки Android улучшат звучание дешевых беспроводных наушников

Как защитить смартфон от шпионского программного обеспечения через настройки Apple, Google и WhatsApp

Как защитить данные во время использования публичного Wi-Fi от сетевых угроз

СТАТТІ