Штучному інтелекту потрібно стільки даних, що йому не вистачає обсягів інтернету

2 Квітня 2024

Компанії, які прагнуть розробити більш потужний штучний інтелект, стрімко наближаються до нової проблеми: інтернет може бути занадто малим для їхніх планів. Дедалі потужніші системи, розроблені OpenAI, Google та іншими, потребують більших океанів інформації для навчання.

Деякі керівники та дослідники кажуть, що потреба галузі у високоякісних текстових даних може перевищити пропозицію протягом двох років, що потенційно сповільнить розвиток штучного інтелекту (ШІ).

Компанії зі штучним інтелектом шукають невикористані джерела інформації та переосмислюють, як вони навчають ці системи. OpenAI, виробник ChatGPT, обговорив навчання своєї наступної моделі, GPT-5, на транскрипції загальнодоступних відео YouTube.

Компанії також експериментують із використанням даних, згенерованих штучним інтелектом, або синтетичних даних як навчального матеріалу — цей підхід, на думку багатьох дослідників, може спричинити серйозні збої в роботі.

Дефіцит даних «є передовою проблемою дослідження», сказав Арі Моркос, дослідник ШІ, який працював у Meta.

Дані належать до кількох важливих ресурсів ШІ, яких бракує. Чипів, необхідних для запуску так званих великих мовних моделей, що стоять за ChatGPT, Gemini від Google та інших ботів ШІ, також не вистачає. А лідери галузі стурбовані нестачею центрів обробки даних і електроенергії, необхідної для їх живлення.

Мовні моделі штучного інтелекту будуються з використанням тексту, отриманого з інтернету, включаючи наукові дослідження, новинні статті та записи у Вікіпедії. Цей матеріал розбивається на токени — слова та частини слів, які моделі використовують, щоб навчитися формулювати людські вирази.

Як правило, моделі штучного інтелекту стають ефективнішими, чим більше даних вони використовують. Пабло Вільялобос, який вивчає штучний інтелект для дослідницького інституту Epoch, підрахував, що GPT-4 був навчений на 12 трильйонах токенів. За оцінками Віллалобоса та інших дослідників, заснована на принципі комп’ютерної науки, який називається законами масштабування Шиншилли, системі ШІ, як GPT-5, знадобиться від 60 до 100 трильйонів токенів даних, якщо дослідники продовжуватимуть слідувати поточній траєкторії зростання.

За словами Віллалобоса, використання всіх доступних високоякісних даних мови та зображень все ще може призвести до дефіциту від 10 до 20 трильйонів токенів. І незрозуміло, як подолати цей розрив.

Два роки тому Віллалобос та його колеги писали, що існує 50% ймовірність того, що попит на високоякісні дані перевищить пропозицію до середини 2024 року, і 90% ймовірність того, що це станеться до 2026 року. Відтоді вони стали трохи більше оптимістичними та планують оновити свою оцінку до 2028 року.

Більшість даних, доступних в інтернеті, не підходять для навчання штучного інтелекту, оскільки містять недоліки, наприклад фрагменти речень, або не доповнюють знання моделі. Віллалобос підрахував, що для навчання корисна лише частина інтернету — можливо, лише одна десята інформації, зібраної некомерційною організацією Common Crawl, чий веб-архів широко використовується розробниками ШІ.

У той же час платформи соціальних медіа, видавці новин та інші обмежували доступ до своїх даних для навчання штучному інтелекту через занепокоєння щодо питань, включаючи справедливу винагороду . І вони не мають великого бажання передавати приватні розмовні дані, такі як чати через iMessage, щоб допомогти навчити моделі ШІ.

Нещодавно Марк Цукерберг назвав доступ Meta до даних на своїх платформах значною перевагою в її зусиллях зі штучним інтелектом. За його словами, Meta може видобувати сотні мільярдів публічних зображень і відео в своїх мережах, включаючи Facebook і Instagram, які в сукупності перевищують найбільш часто використовувані набори даних. Незрозуміло, який відсоток цих даних вважатиметься високоякісним.

Багато тих, хто вивчає проблему даних, зрештою вірять, що рішення з’являться. Віллалобос порівнює це з «піком нафти», страхом, що видобуток нафти може досягти максимуму і почнеится економічно болісний крах. Це занепокоєння виявилося несправедливим завдяки новим технологіям, таким як фрекінг на початку 2000-х років.

Цілком можливо, що світ ШІ побачить подібний розвиток, каже він. «Найбільша невизначеність полягає в тому, які прориви ви побачите».

Теги
Історії

2381

Штучному інтелекту потрібно стільки даних, що йому не вистачає обсягів інтернету

Китайцы создали самую миниатюрную видеокамеру

Windows 10 навчить комп’ютери обмінюватися файлами по Bluetooth

Не баг, а фіча: в Instagram знайшли діру, яка легко робить приватний пост публічним

Скільки грошей можна заробити, якщо перетворити iPhone X на майнера криптовалюти

Vodafone

В якому районі Києва найбільше користуються 5G

Понад 25 ТБ даних у перший день 5G у Києві

Future You: у Києві відкрили інтерактивну AI-інсталяцію, де можна зустрітися із собою з майбутнього

Vodafone запустив 5G у всіх районах Києва

200 тисяч клієнтів протестували 5G у Харкові

Статті

Як ракети вчаться крутитися

Apple: 5 разів, коли їхній дизайн провалився, а користувачі страждали

Опитування на телефоні: як обіцяють заробіток, а платять копійки

Виробники використовують одноразові батарейки задля економії на виготовленні акумуляторів

Космічне кільце на Місяці: нескінченна енергія на Землю чи чергова мрія?

Конкуренція мільярдерів на орбіті: хто першим висадить людей на Місяць

П’ять популярних аксесуарів для смартфонів, що лише марнують гроші та створюють ілюзію безпеки

ПОРАДИ

Методи збереження ємності акумулятора смартфона для його тривалої експлуатації

Як заборонити Instagram використовувати дані про ваші покупки для показу реклами

Як зберігати місця в Google Картах для спрощеного планування подорожей

СТАТТІ

Як ракети вчаться крутитися

Apple: 5 разів, коли їхній дизайн провалився, а користувачі страждали

Опитування на телефоні: як обіцяють заробіток, а платять копійки

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Штучному інтелекту потрібно стільки даних, що йому не вистачає обсягів інтернету

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ