Компанії, які прагнуть розробити більш потужний штучний інтелект, стрімко наближаються до нової проблеми: інтернет може бути занадто малим для їхніх планів. Дедалі потужніші системи, розроблені OpenAI, Google та іншими, потребують більших океанів інформації для навчання.
Деякі керівники та дослідники кажуть, що потреба галузі у високоякісних текстових даних може перевищити пропозицію протягом двох років, що потенційно сповільнить розвиток штучного інтелекту (ШІ).
Компанії зі штучним інтелектом шукають невикористані джерела інформації та переосмислюють, як вони навчають ці системи. OpenAI, виробник ChatGPT, обговорив навчання своєї наступної моделі, GPT-5, на транскрипції загальнодоступних відео YouTube.
Компанії також експериментують із використанням даних, згенерованих штучним інтелектом, або синтетичних даних як навчального матеріалу — цей підхід, на думку багатьох дослідників, може спричинити серйозні збої в роботі.
Дефіцит даних «є передовою проблемою дослідження», сказав Арі Моркос, дослідник ШІ, який працював у Meta.
Дані належать до кількох важливих ресурсів ШІ, яких бракує. Чипів, необхідних для запуску так званих великих мовних моделей, що стоять за ChatGPT, Gemini від Google та інших ботів ШІ, також не вистачає. А лідери галузі стурбовані нестачею центрів обробки даних і електроенергії, необхідної для їх живлення.
Мовні моделі штучного інтелекту будуються з використанням тексту, отриманого з інтернету, включаючи наукові дослідження, новинні статті та записи у Вікіпедії. Цей матеріал розбивається на токени — слова та частини слів, які моделі використовують, щоб навчитися формулювати людські вирази.
Як правило, моделі штучного інтелекту стають ефективнішими, чим більше даних вони використовують. Пабло Вільялобос, який вивчає штучний інтелект для дослідницького інституту Epoch, підрахував, що GPT-4 був навчений на 12 трильйонах токенів. За оцінками Віллалобоса та інших дослідників, заснована на принципі комп’ютерної науки, який називається законами масштабування Шиншилли, системі ШІ, як GPT-5, знадобиться від 60 до 100 трильйонів токенів даних, якщо дослідники продовжуватимуть слідувати поточній траєкторії зростання.
За словами Віллалобоса, використання всіх доступних високоякісних даних мови та зображень все ще може призвести до дефіциту від 10 до 20 трильйонів токенів. І незрозуміло, як подолати цей розрив.
Два роки тому Віллалобос та його колеги писали, що існує 50% ймовірність того, що попит на високоякісні дані перевищить пропозицію до середини 2024 року, і 90% ймовірність того, що це станеться до 2026 року. Відтоді вони стали трохи більше оптимістичними та планують оновити свою оцінку до 2028 року.
Більшість даних, доступних в інтернеті, не підходять для навчання штучного інтелекту, оскільки містять недоліки, наприклад фрагменти речень, або не доповнюють знання моделі. Віллалобос підрахував, що для навчання корисна лише частина інтернету — можливо, лише одна десята інформації, зібраної некомерційною організацією Common Crawl, чий веб-архів широко використовується розробниками ШІ.
У той же час платформи соціальних медіа, видавці новин та інші обмежували доступ до своїх даних для навчання штучному інтелекту через занепокоєння щодо питань, включаючи справедливу винагороду . І вони не мають великого бажання передавати приватні розмовні дані, такі як чати через iMessage, щоб допомогти навчити моделі ШІ.
Нещодавно Марк Цукерберг назвав доступ Meta до даних на своїх платформах значною перевагою в її зусиллях зі штучним інтелектом. За його словами, Meta може видобувати сотні мільярдів публічних зображень і відео в своїх мережах, включаючи Facebook і Instagram, які в сукупності перевищують найбільш часто використовувані набори даних. Незрозуміло, який відсоток цих даних вважатиметься високоякісним.
Багато тих, хто вивчає проблему даних, зрештою вірять, що рішення з’являться. Віллалобос порівнює це з «піком нафти», страхом, що видобуток нафти може досягти максимуму і почнеится економічно болісний крах. Це занепокоєння виявилося несправедливим завдяки новим технологіям, таким як фрекінг на початку 2000-х років.
Цілком можливо, що світ ШІ побачить подібний розвиток, каже він. «Найбільша невизначеність полягає в тому, які прориви ви побачите».