Работа интернет-архивов, призванных сохранять цифровую наследство человечества, осложняется из-за неожиданного кризиса на рынке накопителей данных, вызванного бумом искусственного интеллекта. Повышение цен на жесткие диски, как традиционные, так и на твердотельные накопители, привело к тому, что цены на них подскочили втрое, поскольку производственные мощности переориентировались на нужды крупных компаний, занимающихся разработкой AI-технологий.

Этот стремительный скачок цен делает сохранение информации на обычных скоростях практически невозможным для многих организаций, которые ранее полагались на доступное хранение больших объемов данных. Internet Archive, стремящийся обеспечить «универсальный доступ ко всем знаниям», сталкивается с серьезными проблемами в поддержке своих огромных хранилищ, которые ежедневно пополняются сотнями терабайтов.
Основатель Internet Archive, Брюстер Кейл, отмечает, что поддержка их архивов, насчитывающих около 210 петабайт, стала «очень реальной проблемой, которая стоит нам времени и денег». Особенно ощутим дефицит жестких дисков емкостью 28-30 ТБ, которые идеально подходят для таких задач, ведь они либо отсутствуют на рынке, либо продаются по чрезвычайно завышенной цене.
Фонд Wikimedia, который отвечает за поддержку Википедии, разделяет эти опасения, объясняя, что сохранение более 65 миллионов статей уже требует тщательного планирования бюджета, а нынешние рыночные условия лишь обостряют эту ситуацию, влияя на закупку памяти и жестких дисков. Это также отражается на сроках поставки нового серверного оборудования и возможности размещения будущих заказов.
Помимо дефицита и роста цен, бум искусственного интеллекта повлиял на архивирование другим, потенциально необратимым путем – через массовый сбор данных. Большие языковые модели обучаются на огромных объемах информации, которая часто собирается из интернета, иногда даже незаконно. Вследствие этого многие вебсайты внедрили меры для блокирования автоматизированного сбора данных.
Усилия, направленные на архивирование интернета, начинаются с извлечения информации, но операторы вебсайтов все чаще блокируют подобные попытки. Боты, которые ранее собирали данные для образовательных целей, теперь рассматриваются как ищущие информацию для искусственного интеллекта, что создает препятствия для легитимных архивных проектов.
Даже энтузиасты, занимающиеся сохранением данных в сообществах, таких как r/DataHoarders, вынуждены пересматривать свои приоритеты, поскольку рост цен на жесткие диски приводит к тому, что они прекращают собственные архивные проекты, ожидая стабилизации рынка. Хотя иногда удается найти выгодные предложения, найти накопитель большой емкости по рекомендованной розничной цене стало практически невозможно.
Даже небольшие организации, как End of Term Archive, занимающаяся архивированием правительственных вебсайтов, надеются, что ситуация стабилизируется к тому времени, когда им понадобится обновлять свое оборудование, но неопределенность рынка остается высокой.


