Пятница, 12 июля, 2024

Контент в интернете не выживает: 38% недоступно за десять лет

Мы уже писали, что сегодня писали не осталось страниц с ранних лет интернета. Даже памятная самая первая в мире онлайн-страница исчезла и ныне можно побить только ее воспроизведенную копию. Исчезновение контента из интернета продолжается и сегодня. Новый анализ Pew Research Center показывает, насколько быстротечен онлайн-контент:

  • Четверть всех веб-страниц, которые существовали в определенный момент между 2013 и 2023 годами, больше не доступны по состоянию на октябрь 2023 года. В большинстве случаев это происходит потому, что отдельная страница была удалена.
Линейная диаграмма показывает, что 38% веб-страниц с 2013 года больше недоступны
  • Что касается более старого контента, эта тенденция еще более заметна. Около 38% веб-страниц, которые существовали в 2013 году, недоступны сегодня по сравнению с 8% страниц, которые существовали в 2023 году.

Этот «цифровой распад» происходит во многих разных онлайн-пространствах. Эксперты проверили ссылки, которые появляются на правительственных и новостных веб-сайтах, а также в разделе «Ссылки» на страницах Википедии на весну 2023 года. Этот анализ показал, что:

  • 23% веб-страниц новостей содержат по крайней мере одну неработающую ссылку, как и 21% веб-страниц государственных сайтов. Новые сайты с высоким уровнем трафика и меньшим уровнем вероятности содержат неработающие ссылки. Особенно вероятно, что неработающие ссылки содержатся на веб-страницах органов местного самоуправления (принадлежащих городским властям).
  • 54% страниц Википедии содержат по крайней мере одну ссылку в разделе «Ссылки», указывающую на страницу, которой больше не существует.

Чтобы увидеть, как цифровой распад воспроизводится в социальных сетях, эксперты также собрали выборку твитов в режиме реального времени весной 2023 года на платформе социальных сетей X (тогда известной как Twitter) и следили за ними в течение трех месяцев. эксперты обнаружили, что:

  • Почти каждый пятый твит больше не отображается на сайте только через несколько месяцев после публикации. В 60% этих случаев учетная запись, первоначально опубликовавшая твит, была сделана частной, приостановлена ??или полностью удалена. В остальных 40% владелец аккаунта удалил отдельный твит, но сам аккаунт все еще существовал.
  • Определенные типы твитов исчезают чаще других. Более 40% твитов, написанных на турецком или арабском языках, больше не отображаются на сайте в течение трех месяцев после публикации. Особенно вероятно, что твиты из аккаунтов с настройками профиля по умолчанию исчезнут из общего просмотра.

Существует много способов определить, что-то в интернете существовавшее ранее теперь недоступно для людей, пытающихся до него добраться сегодня. Например, «недоступный» может означать, что:

  • Страница больше не существует на хост-сервере, или сам хост-сервер больше не существует. Кто-то, кто посещает страницы такого типа, обычно получает вариант ошибки сервера «404 не найден».
  • Адрес страницы существует, но его содержимое изменилось (иногда резко) по сравнению с исходным.
  • Страница существует, но некоторым пользователям – например людям со слепотой или другими недостатками зрения – ее может быть трудно или невозможно прочитать.

В этом отчете эксперты сосредоточились на первом из них: страницах, которые больше не существуют. Остальные определения доступности выходят за рамки этого исследования.

Их подход – это простой способ измерения того, доступно что-то в интернете или нет. Но даже в этом случае есть определенная неоднозначность.

Во-первых, существуют десятки кодов статуса, указывающих на проблему, с которой пользователь может столкнуться при попытке получить доступ к странице. Не все из них однозначно указывают на то, не работает ли страница навсегда, или просто временно недоступна. Во-вторых, многие сайты активно пытаются предотвратить автоматический сбор данных.

По этим причинам эксперты использовали наиболее консервативную возможную оценку, чтобы определить, был ли сайт действительно доступным или нет. эксперты засчитывали страницы как недоступные только если они возвращали один из девяти кодов ошибок, которые окончательно указывают на то, что страница и/или ее хост-сервер больше не существуют или перестали работать – независимо от того, как и кем осуществляется доступ к них. Полный список кодов ошибок, которые эксперты включили в наше определение, содержится в методологии</ a> .

Вот некоторые результаты нашего анализа цифрового упадка в разных онлайн-пространствах.

Веб-страницы последнего десятилетия

Чтобы провести эту часть нашего анализа, эксперты собрали случайную выборку из менее 1 миллиона веб-страниц из архивов Common Crawl , архивной службы Интернета, которая периодически собирает снимки Интернета, как он существует в разные моменты времени. эксперты отобрали страницы, собранные Common Crawl ежегодно с 2013 по 2023 год (примерно 90 000 страниц в год), и проверили, существуют ли эти страницы до сих пор.

Эксперты обнаружили, что 25% всех страниц, которые эксперты собрали с 2013 по 2023 год, стали недоступными по состоянию на октябрь 2023 года. Эта цифра является суммой двух различных типов неисправных страниц: 16% страниц отдельно недоступны, но происходят из другого функционального домена корневого уровня; остальные 9% недоступны, поскольку их корневой домен больше не работает.

Неудивительно, что более старые снимки в нашей коллекции имели наибольшую часть недоступных ссылок. Со страниц, собранных на снимке 2013 года, 38% больше не было доступно в 2023 году. Но даже для страниц, собранных на снимке 2021 года, примерно каждая пятая была недоступна только два года спустя.

Гистограмма показывает, что примерно 1 из 5 государственных веб-страниц содержит по крайней мере одну неработающую ссылку

эксперты отобрали около 500 000 страниц с государственных веб-сайтов, используя общий обзор Интернета за март/апрель 2023 года, включая сочетание разных уровней власти (федерального, штатного, местного и других). эксперты нашли каждую ссылку на каждой странице и случайно отобрали эти ссылки на место назначения, чтобы проверить, существуют ли страницы, на которые они ссылаются.

На государственных веб-сайтах, которые выбрали эксперты, было 42 миллиона ссылок. Подавляющее большинство этих ссылок (86%) были внутренними, то есть они ссылались на другую страницу того же сайта. Ресурс пояснения на веб-сайте IRS, содержащий ссылки на другие документы или формы на сайте IRS, может служить примером внутренней ссылки.

Примерно три четверти правительственных веб-страниц, отобранные экспертами, содержали по крайней мере одну ссылку на странице. Типичная (средняя) страница содержит 50 ссылок, но многие страницы содержат гораздо больше. Страница в 90-м процентили содержит 190 ссылок, а страница в 99-м процентили (т.е. 1% самых высоких страниц по количеству ссылок) содержит 740 ссылок.

Другие факты о ссылках на правительственные веб-страницы:

  • Подавляющее большинство переходят на защищенные страницы HTTP (и имеют URL-адрес, начинающийся с “https://”).
  • 6% переходят в статический файл, например PDF-документ.
  • 16% теперь перенаправляют на другой URL, чем тот, на который они сначала указали.

Когда эксперты перешли по этим ссылкам, эксперты обнаружили, что 6% указывают на страницы, которые больше не доступны. Подобные акции внутренних и внешних ссылок больше не работают.

В общей сложности 21% всех государственных веб-страниц, которые эксперты проверили, содержали по крайней мере одну неработающую ссылку. На всех уровнях власти, которые рассматривали эксперты, неисправные ссылки были по крайней мере на 14% страниц; страницы городских властей имели самый высокий уровень неработающих ссылок.

Гистограмма показывает, что 23% веб-страниц новостей имеют по крайней мере одну неработающую ссылку

Для этого анализа эксперты отобрали 500 000 страниц из 2063 веб-сайтов, классифицированных компанией comScore как «Новости/информация». Страницы были собраны с точки зрения Интернета за март/апрель 2023 года.

На всех новостных сайтах эта коллекция содержала более 14 миллионов ссылок, указывающих на сторонние веб-сайты. 1Около 94% этих страниц содержат по крайней мере одну внешнюю ссылку. Средняя страница содержит 20 ссылок, а страницы с первыми 10% по количеству ссылок имеют 56 ссылок.

Как и на государственных веб-сайтах, большинство этих ссылок направляет на защищенные HTTP-страницы (те, URL которых начинается с «https://»). Около 12% ссылок на этих новостных сайтах указывают на статический файл, например PDF-документ. И 32% ссылок на новостных сайтах перенаправляли на другой URL, чем тот, на который они указывали сначала – чуть меньше, чем 39% внешних ссылок на перенаправляющих правительственных сайтах.

Когда эксперты отследили эти ссылки на место назначения, эксперты обнаружили, что 5% всех ссылок на страницах новостных сайтов больше не доступны. И 23% всех страниц, которые эксперты отобрали, содержали по крайней мере одну неработающую ссылку.

Неработающие ссылки примерно так же распространены на новостных веб-сайтах с наибольшим трафиком, как и на сайтах с наименьшим трафиком. Приблизительно 25% страниц новостных веб-сайтов, входящих до 20% лучших посетителей, имеют по крайней мере одну неработающую ссылку. Это почти идентично 26% сайтов в нижних 20% по трафику.

Для этого анализа эксперты собрали случайную выборку из 50 000 англоязычных страниц Википедии и проверили ссылку в разделе «Ссылки». Подавляющее большинство этих страниц (82%) содержат по крайней мере одну справочную ссылку, то есть направляющую читателя на веб-страницу, отличную от самой Википедии.

В общей сложности на всех собранных нами страницах есть чуть более 1 миллиона справочных ссылок. Типичная страница имеет четыре справочные ссылки.

Анализ показывает, что 11% всех ссылок в Википедии больше не доступно. Приблизительно на 2% исходных страниц, содержащих ссылку на ссылку, каждая ссылка на странице была неисправной или иным образом недоступной, тогда как другие 53% страниц содержали по крайней мере одну неработающую ссылку.

Публикации в Twitter

Круговая диаграмма показывает, что примерно 1 из 5 твитов исчезает из поля зрения общественности в течение нескольких месяцев6 =

Для этого анализа эксперты собрали почти 5 миллионов твитов, опубликованных с 8 марта по 27 апреля 2023 на платформе социальных сетей X, которая в то время была известна как Twitter. эксперты сделали это с помощью API потоковой передачи Twitter, собирая 3000 общедоступных твитов каждые 30 минут в режиме реального времени. Это дало нам репрезентативную подборку всех твитов, опубликованных на платформе в течение этого периода. эксперты отслеживали эти твиты до 15 июня 2023 и ежедневно проверяли, все ли они все еще доступны на сайте.

В конце периода наблюдения эксперты обнаружили, что 18% твитов из нашего начального окна сбора больше не были общедоступны на сайте. В большинстве случаев это произошло из-за того, что аккаунт, который первоначально опубликовал твит, сделали частным, приостановили или полностью удалили. Для остальных твитов аккаунт, который опубликовал твит, все еще был виден на сайте, но отдельный твит был удален.

Какие твиты имеют тенденцию исчезать?

 что недоступные твиты часто поступают из аккаунтов с настройками профиля по умолчанию</ figure>
Особенно вероятно, что твиты будут удалены или удалены в течение периода сбора, если они:

  • Написано на некоторых языках. Майже половина всіх турецькомовних твітів, які експерти зібрали – і трохи менша частка написаних арабською мовою – були недоступні наприкінці періоду відстеження.
  • Опубліковано обліковими записами, які використовують налаштування профілю сайту за замовчуванням. Більше половини твітів з облікових записів, які використовують зображення профілю за замовчуванням, були недоступні наприкінці періоду відстеження, як і більше третини з облікових записів із полем біографії за замовчуванням. Твіти з цих облікових записів, як правило, зникають, оскільки весь обліковий запис було видалено або зроблено приватним, на відміну від видалення окремого твіту.
  • Опубліковано неперевіреними обліковими записами.

експерти також виявили, що видалені чи видалені твіти, як правило, надходять із нових облікових записів із відносно невеликою кількістю підписників і скромною активністю на сайті. У середньому твіти, які більше не були видимі на сайті, публікували облікові записи приблизно на вісім місяців молодші за тих, чиї твіти залишилися на сайті.

І коли експерти проаналізували типи твітів, які більше не були доступні, експерти виявили, що ретвіти, твіти з цитатами та оригінальні твіти не сильно відрізняються від загального середнього. Але відповіді були відносно малоймовірними – лише 12% відповідей були недоступні наприкінці періоду нашого моніторингу.

Більшість твітів, видалених із сайту, як правило, зникають незабаром після публікації. Окрім визначення кількості твітів із нашої колекції наприкінці періоду відстеження, експерти провели аналіз виживання, щоб побачити, як довго ці твіти залишалися доступними. експерти виявили, що:

  • 1% твітів видаляється протягом години
  • 3% протягом доби
  • 10% протягом тижня
  • 15% протягом місяця

Іншими словами: половина твітів, які згодом видаляються з платформи, стають недоступними протягом перших шести днів після публікації. І 90% цих твітів стають недоступними протягом 46 днів.

Однак твіти не завжди зникають назавжди. Близько 6% твітів, які експерти зібрали, зникли, а потім знову стали доступними пізніше. Це може бути пов’язано з тим, що обліковий запис став приватним, а потім повернувся до загальнодоступного, або обліковий запис було призупинено, а потім відновлено. З тих «знову з’явлених» твітів переважна більшість (90%) все ще були доступні в Twitter наприкінці періоду моніторингу.

За матеріалами: pewresearch

 

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Евгений пишет для TechToday с 2012 года. По образованию инженер,. Увлекается реставрацией старых автомобилей.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися