Исследователи из Microsoft представили искусственный интеллект Kosmos-1. Это мультимодальная модель, которая может анализировать содержимое изображения, решает визуальные головоломки, выполняет визуальное распознавание текста, проходит визуальные тесты IQ и понимает инструкции на естественном языке. Исследователи считают, что мультимодальный искусственный интеллект, объединяющий различные режимы ввода, такие как текст, аудио, изображения и видео, является ключевым шагом в создании искусственного общего интеллекта (AGI). AGI – это тот тип искусственного интеллекта, который будет работать на уровне человеческого.
«Будучи базовой частью интеллекта, многомодальное восприятие является необходимостью для достижения всеобщего искусственного интеллекта с точки зрения получения знаний и привязки к реальному миру», — пишут исследователи в своей научной статье «Язык — не все, что вам нужно: согласование восприятия с языковыми моделями».
Визуальные примеры работы Kosmos-1 показывают, как модель анализирует и отвечает на вопросы о них, читает текст с изображения, пишет подписи к изображениям и выполняет тест на визуальный IQ с точностью 22–26 процентов.
Пока СМИ шумят новостями о текстовом искусственном интеллекте, некоторые эксперты по искусственному интеллекту указывают на мультимодальный искусственный интеллект как на потенциальный путь к общему искусственному интеллекту (AGI) — гипотетической технологии, которая якобы сможет заменить людей в любой интеллектуальной задаче и любой интеллект. работе.AGI является заявленной целью OpenAI – ключевого бизнес-партнера Microsoft в этой сфере.
В этом случае «Космос-1» выглядит чисто проектом Microsoft без участия OpenAI. Исследователи называют свое творение «мультимодальной большой языковой моделью» (MLLM), поскольку ее корни лежат в обработке естественного языка, таких как ChatGPT используется только для текста.
Чтобы Космос-1 принимал входящее изображение, исследователи должны сначала перевести изображение в специальную серию токенов (в основном текст), которые может понять его обширная языковая модель (LLM).
Корпорация Майкрософт обучала Kosmos-1, используя данные из интернета, включая отрывки из The Pile (текстовый ресурс на английском языке на 800 ГБ) и Common Crawl. После обучения они оценили возможности Космоса-1 по нескольким тестам, включая понимание языка, создание языка, классификацию текста без оптического распознавания символов, создание подписей к изображениям, визуальные ответы на вопросы, ответы на вопросы на веб-странице и классификацию изображений. По данным Microsoft, во многих из этих тестов Космос-1 превзошел самые современные модели.
Особый интерес представляет производительность Космоса-1 по программе Raven’s Progressive Reasoning, измеряющей визуальный IQ, представляя последовательность фигур и прося участника завершить последовательность.
Чтобы протестировать Космос-1, исследователи предоставили ему заполненный тест и спросили, правильный ли ответ. Космос-1 смог правильно ответить на вопросы теста Raven только в 22 процентах случаев (26 процентов с более тщательной настройкой).Ошибки в методологии могли повлиять на результаты, но Космос-1 превзошел случайную возможность (17 процентов) в тесте Raven IQ.
И все же, несмотря на то, что Kosmos-1 представляет собой ранние шаги в мультимодальной сфере, легко вообразить, что будущая оптимизация может принести еще более значимые результаты, позволяя искусственному интеллекту воспринимать любые формы медиа и действовать с ними, что значительно расширит. способности искусственных ассистентов.
В будущем исследователи говорят, что они хотели бы увеличить размер модели Космос-1 и интегрировать возможность речи. Microsoft говорит, что планирует сделать Kosmos-1 доступным разработчикам.