Робота інтернет-архівів, покликаних зберігати цифрову спадщину людства, ускладнюється через несподівану кризу на ринку накопичувачів даних, спричинену бумом штучного інтелекту. Підвищення цін на жорсткі диски, як традиційні, так і на твердотільні накопичувачі, призвело до того, що ціни на них підскочили втричі, оскільки виробничі потужності переорієнтувалися на потреби великих компаній, що займаються розробкою AI-технологій.

Цей стрімкий стрибок цін робить збереження інформації на звичайних швидкостях практично неможливим для багатьох організацій, які раніше покладалися на доступне зберігання великих обсягів даних. Internet Archive, що має на меті забезпечити “універсальний доступ до всіх знань”, стикається з серйозними проблемами у підтримці своїх величезних сховищ, які щодня поповнюються сотнями терабайтів.
Засновник Internet Archive, Брюстер Кейл, відзначає, що підтримка їхніх архівів, які налічують близько 210 петабайтів, стала “дуже реальною проблемою, яка коштує нам часу і грошей”. Особливо відчутним є дефіцит жорстких дисків ємністю 28-30 ТБ, які ідеально підходять для таких завдань, адже вони або відсутні на ринку, або продаються за надзвичайно завищеною ціною.
Фонд Wikimedia, який відповідає за підтримку Вікіпедії, поділяє ці занепокоєння, пояснюючи, що збереження понад 65 мільйонів статей вже вимагає ретельного планування бюджету, а теперішні ринкові умови лише загострюють цю ситуацію, впливаючи на закупівлю пам’яті та жорстких дисків. Це також відбивається на термінах постачання нового серверного обладнання та можливості розміщення майбутніх замовлень.
Окрім дефіциту та зростання цін, бум штучного інтелекту вплинув на архівування іншим, потенційно незворотним шляхом – через масове збирання даних. Великі мовні моделі навчаються на величезних обсягах інформації, яка часто збирається з інтернету, іноді навіть незаконно. Внаслідок цього багато вебсайтів запровадили заходи для блокування автоматизованого збору даних.
Зусилля, спрямовані на архівування інтернету, починаються з вилучення інформації, але оператори вебсайтів все частіше блокують подібні спроби. Боти, які раніше збирали дані для освітніх цілей, тепер розглядаються як ті, що шукають інформацію для штучного інтелекту, що створює перешкоди для легітимних архівних проектів.
Навіть ентузіасти, які займаються збереженням даних у спільнотах, таких як r/DataHoarders, змушені переглядати свої пріоритети, оскільки зростання цін на жорсткі диски призводить до того, що вони припиняють власні архівні проекти, очікуючи стабілізації ринку. Хоча іноді вдається знайти вигідні пропозиції, знайти накопичувач великої ємності за рекомендованою роздрібною ціною стало практично неможливо.
Навіть невеликі організації, як End of Term Archive, що займається архівуванням урядових вебсайтів, сподіваються, що ситуація стабілізується до того часу, коли їм знадобиться оновлювати своє обладнання, але невизначеність ринку залишається високою.


