Популярное мнение «интернет ничего не забывает» на практике оказывается полной противоположностью: данные из интернета исчезают, причем довольно быстро. К примеру, между 2000 и 2019 годами более 170 научных журналов исчезли из интернета. Вместе с их сайтами исчезли и более 2 млн. опубликованных в этих журналах научных статей. Это создает проблему, ведь невозможность проверить первоисточник заставляет верить в правдивость информации, что недопустимо в науке.
Более четверти научных статей не архивируются и не хранятся должным образом, свидетельствуют исследования более семи миллионов цифровых публикаций. Выводы, опубликованные в Journal of Librarianship and Scholarly Communication, указывают на то, что системы хранения документов в интернете не успевают за ростом количества научных публикаций.
«Вся наша эпистемология науки и исследования основывается на цепочке сносок, — объясняет автор Мартин Ив, исследователь литературы, технологий и издательского дела из Биркбека Лондонского университета. – Если вы не можете проверить то, что кто-то другой сказал в какой-то другой момент, вы просто доверяете слепой вере в артефакты, которые больше не можете прочитать сами».
Ив, которая также занимается исследованиями и разработками в организации цифровой инфраструктуры Crossref, проверила, хранятся ли в архивах 7 438 037 работ, отмеченных идентификаторами цифровых объектов (DOI).
DOI, состоящие из строк цифр, букв и символов, являются уникальными отпечатками пальцев, которые используются для идентификации и ссылки на конкретные публикации, такие как научные статьи и официальные отчеты. Crossref является крупнейшим агентством регистрации DOI, которое предоставляет идентификаторы примерно 20 000 членам, включая издательства, музеи и другие учреждения.
Выборка DOI, включенная в исследование, состояла из случайного отбора до 1000 зарегистрированных в каждой организации-члене. Двадцать восемь процентов этих работ – более двух миллионов статей – не появились в больших цифровых архивах, несмотря на наличие активного DOI.
Только 58% DOI ссылались на работы, хранившиеся по крайней мере в одном архиве. Остальные 14% были исключены из исследования, поскольку они были опубликованы слишком недавно, не являлись статьями в журналах или не имели идентифицированного источника.
Ив отмечает, что исследование имеет ограничение: именно то, что оно отслеживало только статьи из DOI, и что оно не искало статьи в каждом цифровом хранилище (например, не проверялось, хранятся ли элементы из DOI в институциональных хранилищах).
Тем не менее, эксперты по охране приветствовали анализ. «Трудно было понять реальный масштаб проблемы цифрового хранения, с которой сталкиваются электронные журналы», — говорит Уильям Килбрайд, управляющий директор Коалиции цифрового хранения со штаб-квартирой в Йорке, Великобритания. Коалиция публикует руководство с подробным описанием надлежащей практики сохранения.
«Многие люди слепо предполагают, что если у вас есть DOI, то он там навсегда, — говорит Микаэль Лааксо, изучающий научное издательское дело в Школе экономики Ханкен в Хельсинки. «Но это не значит, что ссылка будет работать всегда. В 2021 году Лааксо и его коллеги сообщили, что более 170 журналов открытого доступа исчезли из Интернета между 2000 и 2019 годами.
Кейт Виттенберг, управляющий директор службы цифрового архивирования Portico в Нью-Йорке, предупреждает, что малые издатели имеют больший риск не сохранить статьи, чем большие. «Сохранение контента стоит денег», — говорит она, добавляя, что архивирование предполагает инфраструктуру, технологии и опыт, к которым многие небольшие организации не имеют доступа.
Каждый думает о немедленной выгоде, которую может получить от публикации статьи, но нам действительно следует думать о долгосрочной устойчивости исследовательской экосистемы, говорит Ив. – После вашей смерти 100 лет, смогут ли люди получить доступ к тому, над чем вы работали?».