Популярна думка «інтернет нічого не забуває» на практиці виявляється повною протилежністю: дані з інтернету зникають, причому досить швидко. Наприклад, між 2000 і 2019 роками понад 170 наукових журналів зникли з інтернету. Разом з їхніми сайтами зникли і понад 2 млн опублікованих в цих журналах наукових статей. Це створює проблему, адже неможливість перевірити першоджерело змушує вірити у правдивість інформації, що неприпустимо в науці.
Більше чверті наукових статей не архівуються та не зберігаються належним чином, свідчить дослідження понад семи мільйонів цифрових публікацій. Висновки опубліковані в Journal of Librarianship and Scholarly Communication, вказують на те, що системи збереження документів в інтернеті не встигають за зростанням кількості наукових публікацій.
«Уся наша епістемологія науки й дослідження ґрунтується на ланцюжку виносок, — пояснює автор Мартін Ів, дослідник літератури, технологій і видавничої справи з Біркбека Лондонського університету. – Якщо ви не можете перевірити те, що хтось інший сказав у якийсь інший момент, ви просто довіряєте сліпій вірі в артефакти, які більше не можете прочитати самі».
Ів, яка також займається дослідженнями та розробками в організації цифрової інфраструктури Crossref, перевірила, чи зберігаються в архівах 7 438 037 робіт, позначених ідентифікаторами цифрових об’єктів (DOI).
DOI, які складаються з рядка цифр, літер і символів, є унікальними відбитками пальців, які використовуються для ідентифікації та посилання на конкретні публікації, такі як наукові статті та офіційні звіти. Crossref є найбільшим агентством з реєстрації DOI, яке надає ідентифікатори приблизно 20 000 членам, включаючи видавництва, музеї та інші установи.
Вибірка DOI, включена в дослідження, складалася з випадкового відбору до 1000 зареєстрованих у кожній організації-члені. Двадцять вісім відсотків цих робіт — понад два мільйони статей — не з’явилися у великих цифрових архівах, незважаючи на наявність активного DOI.
Лише 58% DOI посилалися на роботи, які зберігалися принаймні в одному архіві. Інші 14% були виключені з дослідження, оскільки вони були опубліковані занадто недавно, не були статтями в журналах або не мали ідентифікованого джерела.
Ів зазначає, що дослідження має обмеження: а саме те, що воно відстежувало лише статті з DOI, і що воно не шукало статті в кожному цифровому сховищі (наприклад, не перевірялося, чи зберігаються елементи з DOI в інституційних сховищах).
Тим не менш, експерти з охорони привітали аналіз. «Було важко зрозуміти реальний масштаб проблеми цифрового збереження, з якою стикаються електронні журнали», — каже Вільям Кілбрайд, керуючий директор Коаліції цифрового збереження зі штаб-квартирою в Йорку, Великобританія. Коаліція публікує посібник із детальним описом належної практики збереження.
«Багато людей сліпо припускають, що якщо у вас є DOI, то він там назавжди, — каже Мікаель Лааксо, який вивчає наукову видавничу справу в Школі економіки Ханкен у Гельсінкі. «Але це не означає, що посилання працюватиме завжди. У 2021 році Лааксо та його колеги повідомили що понад 170 журналів відкритого доступу зникли з Інтернету між 2000 і 2019 роками.
Кейт Віттенберг, керуючий директор служби цифрового архівування Portico в Нью-Йорку, попереджає, що малі видавці мають більший ризик не зберегти статті, ніж великі. «Збереження контенту коштує грошей», — каже вона, додаючи, що архівування передбачає інфраструктуру, технології та досвід, до яких багато невеликих організацій не мають доступу.
«Кожен думає про негайну вигоду, яку може отримати від публікації статті, але нам справді слід думати про довгострокову стійкість дослідницької екосистеми, — каже Ів. – Після вашої смерті 100 років, чи зможуть люди отримати доступ до того, над чим ви працювали?».