Искусственному интеллекту требуется столько данных, что ему не хватает объемов интернета

2 апреля 2024

Компании, стремящиеся разработать более мощный искусственный интеллект, стремительно приближаются к новой проблеме: интернет может быть слишком мал для их планов. Все более мощные системы, разработанные OpenAI, Google и другими, требуют больших океанов информации для обучения.

Некоторые руководители и исследователи говорят, что потребность в высококачественных текстовых данных может превысить предложение в течение двух лет, что потенциально замедлит развитие искусственного интеллекта (ИИ).

Компании с искусственным интеллектом ищут неиспользованные источники информации и переосмысливают, как они учат эти системы. OpenAI, производитель ChatGPT, обсудил обучение своей следующей модели, GPT-5, на транскрипции общедоступных видео YouTube.

Компании также экспериментируют с использованием данных, сгенерированных искусственным интеллектом, или синтетических данных в качестве учебного материала — этот подход, по мнению многих исследователей, может привести к серьезным сбоям в работе.

Дефицит данных «является передовой проблемой исследования», сказал Ари Моркос, исследователь ИИ, работавший в Meta.

Данные относятся к нескольким важным ресурсам недостающих ИИ. Чипов, необходимых для запуска так называемых крупных языковых моделей, стоящих за ChatGPT, Gemini от Google и других ботов ИИ, также не хватает. А лидеры отрасли озабочены нехваткой центров обработки данных и электроэнергии, необходимой для их питания.

Языковые модели искусственного интеллекта строятся с использованием текста, полученного из Интернета, включая научные исследования, новостные статьи и записи в Википедии. Этот материал разбивается на токены — слова и части слов, которые используют модели, чтобы научиться формулировать человеческие выражения.

Как правило, модели искусственного интеллекта становятся более эффективными, чем больше данных они используют. Пабло Уильялобос, изучающий искусственный интеллект для исследовательского института Epoch, подсчитал, что GPT-4 был обучен на 12 триллионов токенов. По оценкам Виллалобоса и других исследователей, основанная на принципе компьютерной науки, который называется законами масштабирования Шиншиллы, системе ИИ, как GPT-5, потребуется от 60 до 100 триллионов токенов данных, если исследователи будут продолжать следовать текущей траектории роста.

По словам Виллалобоса, использование всех доступных качественных данных языка и изображений все еще может привести к дефициту от 10 до 20 триллионов токенов. И непонятно, как преодолеть этот разрыв.

Два года назад Виллалобос и его коллеги писали, что существует 50% вероятность того, что спрос на высококачественные данные превысит предложение к середине 2024 года и 90% вероятность того, что это произойдет к 2026 году. С тех пор они стали немного оптимистичнее и планируют обновить свою оценку до 2028 года.

Большинство данных, доступных в интернете, не подходят для обучения искусственному интеллекту, поскольку содержат недостатки, например фрагменты предложений, или не дополняют знание модели. Виллалобос подсчитал, что для обучения полезна только часть интернета — возможно, всего одна десятая информация, собранная некоммерческой организацией Common Crawl, чей веб-архив широко используется разработчиками ИИ.

В то же время платформы социальных медиа, издатели новостей и другие ограничивали доступ к своим данным для обучения искусственному интеллекту из-за беспокойства по вопросам, включая справедливое вознаграждение. И они не имеют большого желания передавать частные разговорные данные, такие как чат через iMessage, чтобы помочь научить модели ИИ.

Недавно Марк Цукерберг назвал доступ Meta к данным на своих платформах значительным преимуществом в ее усилиях с искусственным интеллектом. По его словам, Meta может добывать сотни миллиардов публичных изображений и видео в своих сетях, включая Facebook и Instagram, в совокупности превышающие наиболее часто используемые наборы данных. Непонятно, какой процент данных будет считаться высококачественным.

Многие изучающие проблему данных в конце концов верят, что решения появятся. Виллалобос сравнивает это с «пиком нефти», страхом, что добыча нефти может достигнуть максимума и начнется экономически болезненный крах. Это беспокойство оказалось несправедливым благодаря новым технологиям, таким как фрекинг в начале 2000-х годов.

Вполне возможно, что мир ИИ увидит подобное развитие, говорит он. «Самая большая неопределенность состоит в том, какие прорывы вы увидите».

Теги
Истории

293

Искусственному интеллекту требуется столько данных, что ему не хватает объемов интернета

Через два года Apple хочет отказаться от процессоров Intel для Mac в пользу собственных чипов

Как защититься от вирусной эпидемии при помощи Linux

Как отключить звонок на Macbook

Как восстановить удаленные файлы на Google Drive

Vodafone

Vodafone и КАИ запускают магистратуру по обработке больших данных

В Киеве заработало 5G: где сеть развернута

Национальная полиция Украины и Vodafone объединились для поиска пропавших детей

Vodafone запускает контрактные тарифы FLEXX для свободного общения в Украине и ЕС

Vodafone Украина, Nokia и Finnvera подписали Меморандум о сотрудничестве для модернизации цифровой инфраструктуры Украины

Статті

Искусственный интеллект не справился с раздачей денег: результаты эксперимента в Амстердаме

День, когда кто-то взломал основу основ Bitcon и сделал из 21 млн 184 000 млн криптомонет

Эти 7 смартфонов Android не стоит покупать. Вот почему

Что происходит, когда люди не понимают, как работает искусственный интеллект

Нейробиологические компьютеры могут стать будущим искусственного интеллекта

Tecno Spark 40 Pro+ : не уступает более дорогим конкурентам при сохранении низкой цены

Разработчики ИИ ищут психиатра для искусственного интеллекта

ПОРАДИ

Как очистить кеш и данные приложений с помощью ADB

Как предотвратить растрескивание оболочки USB-кабеля с помощью шариковой ручки

Как в Windows 11 включить полный формат даты и времени на панель задач

СТАТТІ

Искусственный интеллект не справился с раздачей денег: результаты эксперимента в Амстердаме

День, когда кто-то взломал основу основ Bitcon и сделал из 21 млн 184 000 млн криптомонет

Эти 7 смартфонов Android не стоит покупать. Вот почему

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Искусственному интеллекту требуется столько данных, что ему не хватает объемов интернета

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ