Мы уже писали, что сегодня писали не осталось страниц с ранних лет интернета. Даже памятная самая первая в мире онлайн-страница исчезла и ныне можно побить только ее воспроизведенную копию. Исчезновение контента из интернета продолжается и сегодня. Новый анализ Pew Research Center показывает, насколько быстротечен онлайн-контент:
- Четверть всех веб-страниц, которые существовали в определенный момент между 2013 и 2023 годами, больше не доступны по состоянию на октябрь 2023 года. В большинстве случаев это происходит потому, что отдельная страница была удалена.
- Что касается более старого контента, эта тенденция еще более заметна. Около 38% веб-страниц, которые существовали в 2013 году, недоступны сегодня по сравнению с 8% страниц, которые существовали в 2023 году.
Этот «цифровой распад» происходит во многих разных онлайн-пространствах. Эксперты проверили ссылки, которые появляются на правительственных и новостных веб-сайтах, а также в разделе «Ссылки» на страницах Википедии на весну 2023 года. Этот анализ показал, что:
- 23% веб-страниц новостей содержат по крайней мере одну неработающую ссылку, как и 21% веб-страниц государственных сайтов. Новые сайты с высоким уровнем трафика и меньшим уровнем вероятности содержат неработающие ссылки. Особенно вероятно, что неработающие ссылки содержатся на веб-страницах органов местного самоуправления (принадлежащих городским властям).
- 54% страниц Википедии содержат по крайней мере одну ссылку в разделе «Ссылки», указывающую на страницу, которой больше не существует.
Чтобы увидеть, как цифровой распад воспроизводится в социальных сетях, эксперты также собрали выборку твитов в режиме реального времени весной 2023 года на платформе социальных сетей X (тогда известной как Twitter) и следили за ними в течение трех месяцев. эксперты обнаружили, что:
- Почти каждый пятый твит больше не отображается на сайте только через несколько месяцев после публикации. В 60% этих случаев учетная запись, первоначально опубликовавшая твит, была сделана частной, приостановлена ??или полностью удалена. В остальных 40% владелец аккаунта удалил отдельный твит, но сам аккаунт все еще существовал.
- Определенные типы твитов исчезают чаще других. Более 40% твитов, написанных на турецком или арабском языках, больше не отображаются на сайте в течение трех месяцев после публикации. Особенно вероятно, что твиты из аккаунтов с настройками профиля по умолчанию исчезнут из общего просмотра.
Как этот отчет определяет недоступные ссылки и веб-страницы
Существует много способов определить, что-то в интернете существовавшее ранее теперь недоступно для людей, пытающихся до него добраться сегодня. Например, «недоступный» может означать, что:
- Страница больше не существует на хост-сервере, или сам хост-сервер больше не существует. Кто-то, кто посещает страницы такого типа, обычно получает вариант ошибки сервера «404 не найден».
- Адрес страницы существует, но его содержимое изменилось (иногда резко) по сравнению с исходным.
- Страница существует, но некоторым пользователям – например людям со слепотой или другими недостатками зрения – ее может быть трудно или невозможно прочитать.
В этом отчете эксперты сосредоточились на первом из них: страницах, которые больше не существуют. Остальные определения доступности выходят за рамки этого исследования.
Их подход – это простой способ измерения того, доступно что-то в интернете или нет. Но даже в этом случае есть определенная неоднозначность.
Во-первых, существуют десятки кодов статуса, указывающих на проблему, с которой пользователь может столкнуться при попытке получить доступ к странице. Не все из них однозначно указывают на то, не работает ли страница навсегда, или просто временно недоступна. Во-вторых, многие сайты активно пытаются предотвратить автоматический сбор данных.
По этим причинам эксперты использовали наиболее консервативную возможную оценку, чтобы определить, был ли сайт действительно доступным или нет. эксперты засчитывали страницы как недоступные только если они возвращали один из девяти кодов ошибок, которые окончательно указывают на то, что страница и/или ее хост-сервер больше не существуют или перестали работать – независимо от того, как и кем осуществляется доступ к них. Полный список кодов ошибок, которые эксперты включили в наше определение, содержится в методологии</ a> .
Вот некоторые результаты нашего анализа цифрового упадка в разных онлайн-пространствах.
Веб-страницы последнего десятилетия
Чтобы провести эту часть нашего анализа, эксперты собрали случайную выборку из менее 1 миллиона веб-страниц из архивов Common Crawl , архивной службы Интернета, которая периодически собирает снимки Интернета, как он существует в разные моменты времени. эксперты отобрали страницы, собранные Common Crawl ежегодно с 2013 по 2023 год (примерно 90 000 страниц в год), и проверили, существуют ли эти страницы до сих пор.
Эксперты обнаружили, что 25% всех страниц, которые эксперты собрали с 2013 по 2023 год, стали недоступными по состоянию на октябрь 2023 года. Эта цифра является суммой двух различных типов неисправных страниц: 16% страниц отдельно недоступны, но происходят из другого функционального домена корневого уровня; остальные 9% недоступны, поскольку их корневой домен больше не работает.
Неудивительно, что более старые снимки в нашей коллекции имели наибольшую часть недоступных ссылок. Со страниц, собранных на снимке 2013 года, 38% больше не было доступно в 2023 году. Но даже для страниц, собранных на снимке 2021 года, примерно каждая пятая была недоступна только два года спустя.
Ссылки на правительственные сайты
эксперты отобрали около 500 000 страниц с государственных веб-сайтов, используя общий обзор Интернета за март/апрель 2023 года, включая сочетание разных уровней власти (федерального, штатного, местного и других). эксперты нашли каждую ссылку на каждой странице и случайно отобрали эти ссылки на место назначения, чтобы проверить, существуют ли страницы, на которые они ссылаются.
На государственных веб-сайтах, которые выбрали эксперты, было 42 миллиона ссылок. Подавляющее большинство этих ссылок (86%) были внутренними, то есть они ссылались на другую страницу того же сайта. Ресурс пояснения на веб-сайте IRS, содержащий ссылки на другие документы или формы на сайте IRS, может служить примером внутренней ссылки.
Примерно три четверти правительственных веб-страниц, отобранные экспертами, содержали по крайней мере одну ссылку на странице. Типичная (средняя) страница содержит 50 ссылок, но многие страницы содержат гораздо больше. Страница в 90-м процентили содержит 190 ссылок, а страница в 99-м процентили (т.е. 1% самых высоких страниц по количеству ссылок) содержит 740 ссылок.
Другие факты о ссылках на правительственные веб-страницы:
- Подавляющее большинство переходят на защищенные страницы HTTP (и имеют URL-адрес, начинающийся с “https://”).
- 6% переходят в статический файл, например PDF-документ.
- 16% теперь перенаправляют на другой URL, чем тот, на который они сначала указали.
Когда эксперты перешли по этим ссылкам, эксперты обнаружили, что 6% указывают на страницы, которые больше не доступны. Подобные акции внутренних и внешних ссылок больше не работают.
В общей сложности 21% всех государственных веб-страниц, которые эксперты проверили, содержали по крайней мере одну неработающую ссылку. На всех уровнях власти, которые рассматривали эксперты, неисправные ссылки были по крайней мере на 14% страниц; страницы городских властей имели самый высокий уровень неработающих ссылок.
Ссылки на новостные сайты
Для этого анализа эксперты отобрали 500 000 страниц из 2063 веб-сайтов, классифицированных компанией comScore как «Новости/информация». Страницы были собраны с точки зрения Интернета за март/апрель 2023 года.
На всех новостных сайтах эта коллекция содержала более 14 миллионов ссылок, указывающих на сторонние веб-сайты. 1Около 94% этих страниц содержат по крайней мере одну внешнюю ссылку. Средняя страница содержит 20 ссылок, а страницы с первыми 10% по количеству ссылок имеют 56 ссылок.
Как и на государственных веб-сайтах, большинство этих ссылок направляет на защищенные HTTP-страницы (те, URL которых начинается с «https://»). Около 12% ссылок на этих новостных сайтах указывают на статический файл, например PDF-документ. И 32% ссылок на новостных сайтах перенаправляли на другой URL, чем тот, на который они указывали сначала – чуть меньше, чем 39% внешних ссылок на перенаправляющих правительственных сайтах.
Когда эксперты отследили эти ссылки на место назначения, эксперты обнаружили, что 5% всех ссылок на страницах новостных сайтов больше не доступны. И 23% всех страниц, которые эксперты отобрали, содержали по крайней мере одну неработающую ссылку.
Неработающие ссылки примерно так же распространены на новостных веб-сайтах с наибольшим трафиком, как и на сайтах с наименьшим трафиком. Приблизительно 25% страниц новостных веб-сайтов, входящих до 20% лучших посетителей, имеют по крайней мере одну неработающую ссылку. Это почти идентично 26% сайтов в нижних 20% по трафику.
Справочные ссылки в Википедии
Для этого анализа эксперты собрали случайную выборку из 50 000 англоязычных страниц Википедии и проверили ссылку в разделе «Ссылки». Подавляющее большинство этих страниц (82%) содержат по крайней мере одну справочную ссылку, то есть направляющую читателя на веб-страницу, отличную от самой Википедии.
В общей сложности на всех собранных нами страницах есть чуть более 1 миллиона справочных ссылок. Типичная страница имеет четыре справочные ссылки.
Анализ показывает, что 11% всех ссылок в Википедии больше не доступно. Приблизительно на 2% исходных страниц, содержащих ссылку на ссылку, каждая ссылка на странице была неисправной или иным образом недоступной, тогда как другие 53% страниц содержали по крайней мере одну неработающую ссылку.
Публикации в Twitter
Для этого анализа эксперты собрали почти 5 миллионов твитов, опубликованных с 8 марта по 27 апреля 2023 на платформе социальных сетей X, которая в то время была известна как Twitter. эксперты сделали это с помощью API потоковой передачи Twitter, собирая 3000 общедоступных твитов каждые 30 минут в режиме реального времени. Это дало нам репрезентативную подборку всех твитов, опубликованных на платформе в течение этого периода. эксперты отслеживали эти твиты до 15 июня 2023 и ежедневно проверяли, все ли они все еще доступны на сайте.
В конце периода наблюдения эксперты обнаружили, что 18% твитов из нашего начального окна сбора больше не были общедоступны на сайте. В большинстве случаев это произошло из-за того, что аккаунт, который первоначально опубликовал твит, сделали частным, приостановили или полностью удалили. Для остальных твитов аккаунт, который опубликовал твит, все еще был виден на сайте, но отдельный твит был удален.