Искусственному интеллекту требуется столько данных, что ему не хватает объемов интернета

2 апреля 2024

Компании, стремящиеся разработать более мощный искусственный интеллект, стремительно приближаются к новой проблеме: интернет может быть слишком мал для их планов. Все более мощные системы, разработанные OpenAI, Google и другими, требуют больших океанов информации для обучения.

Некоторые руководители и исследователи говорят, что потребность в высококачественных текстовых данных может превысить предложение в течение двух лет, что потенциально замедлит развитие искусственного интеллекта (ИИ).

Компании с искусственным интеллектом ищут неиспользованные источники информации и переосмысливают, как они учат эти системы. OpenAI, производитель ChatGPT, обсудил обучение своей следующей модели, GPT-5, на транскрипции общедоступных видео YouTube.

Компании также экспериментируют с использованием данных, сгенерированных искусственным интеллектом, или синтетических данных в качестве учебного материала — этот подход, по мнению многих исследователей, может привести к серьезным сбоям в работе.

Дефицит данных «является передовой проблемой исследования», сказал Ари Моркос, исследователь ИИ, работавший в Meta.

Данные относятся к нескольким важным ресурсам недостающих ИИ. Чипов, необходимых для запуска так называемых крупных языковых моделей, стоящих за ChatGPT, Gemini от Google и других ботов ИИ, также не хватает. А лидеры отрасли озабочены нехваткой центров обработки данных и электроэнергии, необходимой для их питания.

Языковые модели искусственного интеллекта строятся с использованием текста, полученного из Интернета, включая научные исследования, новостные статьи и записи в Википедии. Этот материал разбивается на токены — слова и части слов, которые используют модели, чтобы научиться формулировать человеческие выражения.

Как правило, модели искусственного интеллекта становятся более эффективными, чем больше данных они используют. Пабло Уильялобос, изучающий искусственный интеллект для исследовательского института Epoch, подсчитал, что GPT-4 был обучен на 12 триллионов токенов. По оценкам Виллалобоса и других исследователей, основанная на принципе компьютерной науки, который называется законами масштабирования Шиншиллы, системе ИИ, как GPT-5, потребуется от 60 до 100 триллионов токенов данных, если исследователи будут продолжать следовать текущей траектории роста.

По словам Виллалобоса, использование всех доступных качественных данных языка и изображений все еще может привести к дефициту от 10 до 20 триллионов токенов. И непонятно, как преодолеть этот разрыв.

Два года назад Виллалобос и его коллеги писали, что существует 50% вероятность того, что спрос на высококачественные данные превысит предложение к середине 2024 года и 90% вероятность того, что это произойдет к 2026 году. С тех пор они стали немного оптимистичнее и планируют обновить свою оценку до 2028 года.

Большинство данных, доступных в интернете, не подходят для обучения искусственному интеллекту, поскольку содержат недостатки, например фрагменты предложений, или не дополняют знание модели. Виллалобос подсчитал, что для обучения полезна только часть интернета — возможно, всего одна десятая информация, собранная некоммерческой организацией Common Crawl, чей веб-архив широко используется разработчиками ИИ.

В то же время платформы социальных медиа, издатели новостей и другие ограничивали доступ к своим данным для обучения искусственному интеллекту из-за беспокойства по вопросам, включая справедливое вознаграждение. И они не имеют большого желания передавать частные разговорные данные, такие как чат через iMessage, чтобы помочь научить модели ИИ.

Недавно Марк Цукерберг назвал доступ Meta к данным на своих платформах значительным преимуществом в ее усилиях с искусственным интеллектом. По его словам, Meta может добывать сотни миллиардов публичных изображений и видео в своих сетях, включая Facebook и Instagram, в совокупности превышающие наиболее часто используемые наборы данных. Непонятно, какой процент данных будет считаться высококачественным.

Многие изучающие проблему данных в конце концов верят, что решения появятся. Виллалобос сравнивает это с «пиком нефти», страхом, что добыча нефти может достигнуть максимума и начнется экономически болезненный крах. Это беспокойство оказалось несправедливым благодаря новым технологиям, таким как фрекинг в начале 2000-х годов.

Вполне возможно, что мир ИИ увидит подобное развитие, говорит он. «Самая большая неопределенность состоит в том, какие прорывы вы увидите».

Теги
Истории

446

Искусственному интеллекту требуется столько данных, что ему не хватает объемов интернета

Xiaomi подготовила «умную» мусорную корзину – она сама меняет пакет

Выдвижная камера OnePlus 7 Pro подняла 22 килограмма цемента

Создали робота Hexу, который носит растение на голове

Как отключить протокол SMBv1

Vodafone

Vodafone запустил открытое тестирование 5G в Бородянке

Определен лидер по качеству фиксированного интернета в Украине

ервые 12 часов работы 5G во Львове: более 1 ТБ данных и скорость более 1,4 Гбит/с

Vodafone внедряет принцип «роуминг как дома» в контрактных и бизнес тарифах

Vodafone продлил акционное предложение на интернет для дома за 125 грн

Статті

Искусственный интеллект создает низкооплачиваемую бизнес-экономику для образованных людей

На этой неделе родилось телевидение — ровно 100 лет назад

Цифровые темные века наступают? Люди, спасающие забытые знания, заперты на старых дискетах

Обзор Oppo Reno15 Pro: попадает почти в каждое «яблочко»

Вскоре мы сможем разговаривать с животными. Кто будет первым?

Эпоха потери квалификации. Будет ли ИИ развивать нас или ограничивать нас?

Обзор Realme 16 Pro+: сбалансированная батарея и камера

ПОРАДИ

Как изменить ПИН-код Windows для лучшей безопасности

Как узнать, что смартфон подключился к мошеннической мобильной сети – вариант на Android

Как вернуться к более старой версии приложения Android

СТАТТІ

Искусственный интеллект создает низкооплачиваемую бизнес-экономику для образованных людей

На этой неделе родилось телевидение — ровно 100 лет назад

Цифровые темные века наступают? Люди, спасающие забытые знания, заперты на старых дискетах

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Искусственному интеллекту требуется столько данных, что ему не хватает объемов интернета

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ