Microsoft сделала первый шаг к человекоподобному искусственному интеллекту: создан искусственный интеллект, понимающий содержимое изображения и решающий визуальные задачи

3 марта 2023

Исследователи из Microsoft представили искусственный интеллект Kosmos-1. Это мультимодальная модель, которая может анализировать содержимое изображения, решает визуальные головоломки, выполняет визуальное распознавание текста, проходит визуальные тесты IQ и понимает инструкции на естественном языке. Исследователи считают, что мультимодальный искусственный интеллект, объединяющий различные режимы ввода, такие как текст, аудио, изображения и видео, является ключевым шагом в создании искусственного общего интеллекта (AGI). AGI – это тот тип искусственного интеллекта, который будет работать на уровне человеческого.

«Будучи базовой частью интеллекта, многомодальное восприятие является необходимостью для достижения всеобщего искусственного интеллекта с точки зрения получения знаний и привязки к реальному миру», — пишут исследователи в своей научной статье «Язык — не все, что вам нужно: согласование восприятия с языковыми моделями».

Визуальные примеры работы Kosmos-1 показывают, как модель анализирует и отвечает на вопросы о них, читает текст с изображения, пишет подписи к изображениям и выполняет тест на визуальный IQ с точностью 22–26 процентов.

Пока СМИ шумят новостями о текстовом искусственном интеллекте, некоторые эксперты по искусственному интеллекту указывают на мультимодальный искусственный интеллект как на потенциальный путь к общему искусственному интеллекту (AGI) — гипотетической технологии, которая якобы сможет заменить людей в любой интеллектуальной задаче и любой интеллект. работе.AGI является заявленной целью OpenAI – ключевого бизнес-партнера Microsoft в этой сфере.

В этом случае «Космос-1» выглядит чисто проектом Microsoft без участия OpenAI. Исследователи называют свое творение «мультимодальной большой языковой моделью» (MLLM), поскольку ее корни лежат в обработке естественного языка, таких как ChatGPT используется только для текста.

Чтобы Космос-1 принимал входящее изображение, исследователи должны сначала перевести изображение в специальную серию токенов (в основном текст), которые может понять его обширная языковая модель (LLM).

Корпорация Майкрософт обучала Kosmos-1, используя данные из интернета, включая отрывки из The Pile (текстовый ресурс на английском языке на 800 ГБ) и Common Crawl. После обучения они оценили возможности Космоса-1 по нескольким тестам, включая понимание языка, создание языка, классификацию текста без оптического распознавания символов, создание подписей к изображениям, визуальные ответы на вопросы, ответы на вопросы на веб-странице и классификацию изображений. По данным Microsoft, во многих из этих тестов Космос-1 превзошел самые современные модели.

Особый интерес представляет производительность Космоса-1 по программе Raven’s Progressive Reasoning, измеряющей визуальный IQ, представляя последовательность фигур и прося участника завершить последовательность.

Чтобы протестировать Космос-1, исследователи предоставили ему заполненный тест и спросили, правильный ли ответ. Космос-1 смог правильно ответить на вопросы теста Raven только в 22 процентах случаев (26 процентов с более тщательной настройкой).Ошибки в методологии могли повлиять на результаты, но Космос-1 превзошел случайную возможность (17 процентов) в тесте Raven IQ.

И все же, несмотря на то, что Kosmos-1 представляет собой ранние шаги в мультимодальной сфере, легко вообразить, что будущая оптимизация может принести еще более значимые результаты, позволяя искусственному интеллекту воспринимать любые формы медиа и действовать с ними, что значительно расширит. способности искусственных ассистентов.

В будущем исследователи говорят, что они хотели бы увеличить размер модели Космос-1 и интегрировать возможность речи. Microsoft говорит, что планирует сделать Kosmos-1 доступным разработчикам.

Теги
Технологии

777

Топовый университет взял ChatGPT преподавателем: учительская карьера искусственного интеллекта стартует осенью

Разработчики Linux предложили пользователям Windows 7 переходить на Linux

Ученые создали гуманоидную работу, которая может управлять самолетом

Бренд батареек Energizer выпустил ноутбук за $199

Vodafone

200 тысяч клиентов протестировали 5G в Харькове

Vodafone Ukraine построит современный подземный дата-центр

Vodafone Украина привлекла €30 млн финансирования для развития сети в сотрудничестве с Nokia, ING и Finnvera

Интернет Vodafone, работающий без электричества, охватил 2 млн домохозяйств

Vodafone добавил солнечную генерацию на первые 100 базовых станций

Статті

Этот научно-фантастический концепт Лунного кольца может отправить на Землю бесконечную чистую энергию

Конкуренция миллиардеров на орбите: кто первым высадит людей на Луну

Пять популярных аксессуаров для смартфонов, что лишь тратят деньги и создают иллюзию безопасности

AI-восстановление фото подменяет лица родственников, уничтожая настоящую семейную историю

Как выходит, что вы обогнали кого-то на дороге, а он снова появляется впереди: ученые объяснили невидимую силу статистики

2026 год: хай-тек на грани краха, миллиарды исчезают, а пользователи становятся жертвами

Может ли искусственный интеллект генерировать новые идеи?

ПОРАДИ

Как снизить риск цифрового зрительного синдрома и боли в шее при использовании смартфона

Как настроить двухфакторную аутентификацию и ограничить доступ сторонних программ к вашему Apple ID

Как запретить Google обучать ИИ на данных вашего поиска

СТАТТІ