Штучному інтелекту потрібно стільки даних, що йому не вистачає обсягів інтернету

2 Квітня 2024

Компанії, які прагнуть розробити більш потужний штучний інтелект, стрімко наближаються до нової проблеми: інтернет може бути занадто малим для їхніх планів. Дедалі потужніші системи, розроблені OpenAI, Google та іншими, потребують більших океанів інформації для навчання.

Деякі керівники та дослідники кажуть, що потреба галузі у високоякісних текстових даних може перевищити пропозицію протягом двох років, що потенційно сповільнить розвиток штучного інтелекту (ШІ).

Компанії зі штучним інтелектом шукають невикористані джерела інформації та переосмислюють, як вони навчають ці системи. OpenAI, виробник ChatGPT, обговорив навчання своєї наступної моделі, GPT-5, на транскрипції загальнодоступних відео YouTube.

Компанії також експериментують із використанням даних, згенерованих штучним інтелектом, або синтетичних даних як навчального матеріалу — цей підхід, на думку багатьох дослідників, може спричинити серйозні збої в роботі.

Дефіцит даних «є передовою проблемою дослідження», сказав Арі Моркос, дослідник ШІ, який працював у Meta.

Дані належать до кількох важливих ресурсів ШІ, яких бракує. Чипів, необхідних для запуску так званих великих мовних моделей, що стоять за ChatGPT, Gemini від Google та інших ботів ШІ, також не вистачає. А лідери галузі стурбовані нестачею центрів обробки даних і електроенергії, необхідної для їх живлення.

Мовні моделі штучного інтелекту будуються з використанням тексту, отриманого з інтернету, включаючи наукові дослідження, новинні статті та записи у Вікіпедії. Цей матеріал розбивається на токени — слова та частини слів, які моделі використовують, щоб навчитися формулювати людські вирази.

Як правило, моделі штучного інтелекту стають ефективнішими, чим більше даних вони використовують. Пабло Вільялобос, який вивчає штучний інтелект для дослідницького інституту Epoch, підрахував, що GPT-4 був навчений на 12 трильйонах токенів. За оцінками Віллалобоса та інших дослідників, заснована на принципі комп’ютерної науки, який називається законами масштабування Шиншилли, системі ШІ, як GPT-5, знадобиться від 60 до 100 трильйонів токенів даних, якщо дослідники продовжуватимуть слідувати поточній траєкторії зростання.

За словами Віллалобоса, використання всіх доступних високоякісних даних мови та зображень все ще може призвести до дефіциту від 10 до 20 трильйонів токенів. І незрозуміло, як подолати цей розрив.

Два роки тому Віллалобос та його колеги писали, що існує 50% ймовірність того, що попит на високоякісні дані перевищить пропозицію до середини 2024 року, і 90% ймовірність того, що це станеться до 2026 року. Відтоді вони стали трохи більше оптимістичними та планують оновити свою оцінку до 2028 року.

Більшість даних, доступних в інтернеті, не підходять для навчання штучного інтелекту, оскільки містять недоліки, наприклад фрагменти речень, або не доповнюють знання моделі. Віллалобос підрахував, що для навчання корисна лише частина інтернету — можливо, лише одна десята інформації, зібраної некомерційною організацією Common Crawl, чий веб-архів широко використовується розробниками ШІ.

У той же час платформи соціальних медіа, видавці новин та інші обмежували доступ до своїх даних для навчання штучному інтелекту через занепокоєння щодо питань, включаючи справедливу винагороду . І вони не мають великого бажання передавати приватні розмовні дані, такі як чати через iMessage, щоб допомогти навчити моделі ШІ.

Нещодавно Марк Цукерберг назвав доступ Meta до даних на своїх платформах значною перевагою в її зусиллях зі штучним інтелектом. За його словами, Meta може видобувати сотні мільярдів публічних зображень і відео в своїх мережах, включаючи Facebook і Instagram, які в сукупності перевищують найбільш часто використовувані набори даних. Незрозуміло, який відсоток цих даних вважатиметься високоякісним.

Багато тих, хто вивчає проблему даних, зрештою вірять, що рішення з’являться. Віллалобос порівнює це з «піком нафти», страхом, що видобуток нафти може досягти максимуму і почнеится економічно болісний крах. Це занепокоєння виявилося несправедливим завдяки новим технологіям, таким як фрекінг на початку 2000-х років.

Цілком можливо, що світ ШІ побачить подібний розвиток, каже він. «Найбільша невизначеність полягає в тому, які прориви ви побачите».

Теги
Історії

2360

Штучному інтелекту потрібно стільки даних, що йому не вистачає обсягів інтернету

Рекламодавці незадоволені, що рекламу у відео YouTube можна приховано відтворити. Вони вимагають повернення грошей за цю рекламу

Видавці книжок звинуватили Meta та Цукерберга в порушенні авторських прав

Бренд Nokia потерян для смартфонов

Українців закликають зменшити навантаження на мобільну мережу

Vodafone

200 тисяч клієнтів протестували 5G у Харкові

Vodafone Україна побудує надсучасний підземний дата-центр

Vodafone Україна залучив €30 млн фінансування для розвитку мережі у співпраці з Nokia, ING та Finnvera

Інтернет Vodafone, що працює без електрики, охопив 2 млн домогосподарств

Vodafone додав сонячну генерацію на перші 100 базових станцій

Статті

П’ять популярних аксесуарів для смартфонів, що лише марнують гроші та створюють ілюзію безпеки

AI-відновлення фото підміняє обличчя родичів, знищуючи справжню сімейну історію

Як виходить, що ви обігнали когось на дорозі, а він знову з’являється попереду: вчені пояснили невидиму силу статистики

2026 рік: хай-тек на межі краху, мільярди зникають, а користувачі стають жертвами

Чи може штучний інтелект генерувати нові ідеї?

Чи можна зупинити розплавлення ядерного реактора?

Здається, пари почали використовувати чат-ботів як заміну реальним стосункам

ПОРАДИ

Як на iPhone увімкнкти макрозйомку для фокусування на відстані від двох сантиметрів

Чому iPhone робить екран тьмянішим

Як оновити iPad через Finder на комп’ютері Mac при невдалому встановленні iPadOS

СТАТТІ

П’ять популярних аксесуарів для смартфонів, що лише марнують гроші та створюють ілюзію безпеки

AI-відновлення фото підміняє обличчя родичів, знищуючи справжню сімейну історію

Як виходить, що ви обігнали когось на дорозі, а він знову з’являється попереду: вчені пояснили невидиму силу статистики

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Штучному інтелекту потрібно стільки даних, що йому не вистачає обсягів інтернету

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ