Пятница, 22 ноября, 2024

Искусственному интеллекту требуется столько данных, что ему не хватает объемов интернета

Компании, стремящиеся разработать более мощный искусственный интеллект, стремительно приближаются к новой проблеме: интернет может быть слишком мал для их планов. Все более мощные системы, разработанные OpenAI, Google и другими, требуют больших океанов информации для обучения.

Некоторые руководители и исследователи говорят, что потребность в высококачественных текстовых данных может превысить предложение в течение двух лет, что потенциально замедлит развитие искусственного интеллекта (ИИ).

Компании с искусственным интеллектом ищут неиспользованные источники информации и переосмысливают, как они учат эти системы. OpenAI, производитель ChatGPT, обсудил обучение своей следующей модели, GPT-5, на транскрипции общедоступных видео YouTube.

Компании также экспериментируют с использованием данных, сгенерированных искусственным интеллектом, или синтетических данных в качестве учебного материала — этот подход, по мнению многих исследователей, может привести к серьезным сбоям в работе.

Дефицит данных «является передовой проблемой исследования», сказал Ари Моркос, исследователь ИИ, работавший в Meta.

Данные относятся к нескольким важным ресурсам недостающих ИИ. Чипов, необходимых для запуска так называемых крупных языковых моделей, стоящих за ChatGPT, Gemini от Google и других ботов ИИ, также не хватает. А лидеры отрасли озабочены нехваткой центров обработки данных и электроэнергии, необходимой для их питания.

Языковые модели искусственного интеллекта строятся с использованием текста, полученного из Интернета, включая научные исследования, новостные статьи и записи в Википедии. Этот материал разбивается на токены — слова и части слов, которые используют модели, чтобы научиться формулировать человеческие выражения.

Как правило, модели искусственного интеллекта становятся более эффективными, чем больше данных они используют. Пабло Уильялобос, изучающий искусственный интеллект для исследовательского института Epoch, подсчитал, что GPT-4 был обучен на 12 триллионов токенов. По оценкам Виллалобоса и других исследователей, основанная на принципе компьютерной науки, который называется законами масштабирования Шиншиллы, системе ИИ, как GPT-5, потребуется от 60 до 100 триллионов токенов данных, если исследователи будут продолжать следовать текущей траектории роста.

По словам Виллалобоса, использование всех доступных качественных данных языка и изображений все еще может привести к дефициту от 10 до 20 триллионов токенов. И непонятно, как преодолеть этот разрыв.

Два года назад Виллалобос и его коллеги писали, что существует 50% вероятность того, что спрос на высококачественные данные превысит предложение к середине 2024 года и 90% вероятность того, что это произойдет к 2026 году. С тех пор они стали немного оптимистичнее и планируют обновить свою оценку до 2028 года.

Большинство данных, доступных в интернете, не подходят для обучения искусственному интеллекту, поскольку содержат недостатки, например фрагменты предложений, или не дополняют знание модели. Виллалобос подсчитал, что для обучения полезна только часть интернета — возможно, всего одна десятая информация, собранная некоммерческой организацией Common Crawl, чей веб-архив широко используется разработчиками ИИ.

В то же время платформы социальных медиа, издатели новостей и другие ограничивали доступ к своим данным для обучения искусственному интеллекту из-за беспокойства по вопросам, включая справедливое вознаграждение. И они не имеют большого желания передавать частные разговорные данные, такие как чат через iMessage, чтобы помочь научить модели ИИ.

Недавно Марк Цукерберг назвал доступ Meta к данным на своих платформах значительным преимуществом в ее усилиях с искусственным интеллектом. По его словам, Meta может добывать сотни миллиардов публичных изображений и видео в своих сетях, включая Facebook и Instagram, в совокупности превышающие наиболее часто используемые наборы данных. Непонятно, какой процент данных будет считаться высококачественным.

Многие изучающие проблему данных в конце концов верят, что решения появятся. Виллалобос сравнивает это с «пиком нефти», страхом, что добыча нефти может достигнуть максимума и начнется экономически болезненный крах. Это беспокойство оказалось несправедливым благодаря новым технологиям, таким как фрекинг в начале 2000-х годов.

Вполне возможно, что мир ИИ увидит подобное развитие, говорит он. «Самая большая неопределенность состоит в том, какие прорывы вы увидите».

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Евгений пишет для TechToday с 2012 года. По образованию инженер,. Увлекается реставрацией старых автомобилей.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися