Четвер, 19 Грудня, 2024

Контент в інтернеті не виживає: 38% недоступно за десять років

Ми вже писали, що сьогодні не залишилося сторінок з ранніх років інтернету. Навіть пам’ятна найперша в світі онлайн-сторінка зникла і нині можнна побічити лише її відтворену копію. Зникнення контенту з інтернету продовжується і сьогодні. Новий аналіз Pew Research Center показує, наскільки швидкоплинним є онлайн-контент:

  • Чверть усіх веб-сторінок, які існували в певний момент між 2013 і 2023 роками, більше не доступні станом на жовтень 2023 року. У більшості випадків це відбувається тому, що окрему сторінку було видалено.
Лінійна діаграма показує, що 38% веб-сторінок із 2013 року більше недоступні
  • Що стосується старішого контенту, ця тенденція ще більш помітна. Близько 38% веб-сторінок, які існували в 2013 році, недоступні сьогодні, порівняно з 8% сторінок, які існували в 2023 році.

Цей «цифровий розпад» відбувається в багатьох різних онлайн-просторах. Експерти перевірили посилання, які з’являються на урядових і новинних веб-сайтах, а також у розділі «Посилання» на сторінках Вікіпедії станом на весну 2023 року. Цей аналіз виявив, що:

  • 23% веб-сторінок новин містять принаймні одне непрацююче посилання, як і 21% веб-сторінок державних сайтів. Новинні сайти з високим рівнем трафіку та з меншим рівнем імовірності містять непрацюючі посилання. Особливо ймовірно, що непрацюючі посилання містяться на веб-сторінках органів місцевого самоврядування (що належать міській владі).
  • 54% сторінок Вікіпедії містять принаймні одне посилання в розділі «Посилання», яке вказує на сторінку, якої більше не існує.

Щоб побачити, як цифровий розпад відтворюється в соціальних мережах, експерти також зібрали вибірку твітів у режимі реального часу протягом весни 2023 року на платформі соціальних мереж X (тоді відомої як Twitter) і стежили за ними протягом трьох місяців. експерти виявили, що:

  • Майже кожен п’ятий твіт більше не відображається на сайті лише через кілька місяців після публікації. У 60% цих випадків обліковий запис, який спочатку опублікував твіт, було зроблено приватним, призупинено або повністю видалено. В інших 40% власник облікового запису видалив окремий твіт, але сам обліковий запис все ще існував.
  • Певні типи твітів зникають частіше, ніж інші. Понад 40% твітів, написаних турецькою чи арабською мовами, більше не відображаються на сайті протягом трьох місяців після публікації. Особливо ймовірно, що твіти з облікових записів із налаштуваннями профілю за замовчуванням зникнуть із загального перегляду.

Існує багато способів визначити, чи щось в інтернеті, що існувало раніше, тепер недоступне для людей, які намагаються до нього дістатися сьогодні. Наприклад, «недоступний» може означати, що:

  • Сторінка більше не існує на хост-сервері, або сам хост-сервер більше не існує. Хтось, хто відвідує сторінки такого типу, зазвичай отримує варіант помилки сервера «404 не знайдено».
  • Адреса сторінки існує, але її вміст змінився (інколи різко) порівняно з початковим.
  • Сторінка існує, але деяким користувачам – наприклад людям із сліпотою чи іншими вадами зору – її може бути важко чи неможливо прочитати.

У цьому звіті експерти зосередилися на першому з них: сторінках, які більше не існують. Інші визначення доступності виходять за рамки цього дослідження.

Їхній підхід — це простий спосіб вимірювання того, доступно щось в інтернеті чи ні. Але навіть у цьому випадку є певна неоднозначність.

По-перше, існують десятки кодів статусу, які вказують на проблему, з якою користувач може зіткнутися під час спроби отримати доступ до сторінки. Не всі з них однозначно вказують на те, чи сторінка не працює назавжди, чи просто тимчасово недоступна. По-друге, багато сайтів активно намагаються запобігти автоматичному збору даних.

З цих причин експерти використали найконсервативнішу можливу оцінку, щоб визначити, чи був сайт насправді доступним чи ні. експерти зараховували сторінки як недоступні, лише якщо вони повертали один із дев’яти кодів помилок, які остаточно вказують на те, що сторінка та/або її хост-сервер більше не існують або перестали працювати – незалежно від того, як і ким здійснюється доступ до них. Повний список кодів помилок, які експерти включили в наше визначення, міститься в методології .

Ось деякі результати нашого аналізу цифрового занепаду в різних онлайн-просторах.

Веб-сторінки останнього десятиліття

Щоб провести цю частину нашого аналізу, експерти зібрали випадкову вибірку з трохи менше 1 мільйона веб-сторінок з архівів Common Crawl , архівної служби Інтернету, яка періодично збирає знімки Інтернету, як він існує в різні моменти часу. експерти відібрали сторінки, зібрані Common Crawl щороку з 2013 по 2023 рік (приблизно 90 000 сторінок на рік), і перевірили, чи існують ці сторінки досі.

експерти виявили, що 25% усіх сторінок, які експерти зібрали з 2013 по 2023 рік, стали недоступними станом на жовтень 2023 року. Ця цифра є сумою двох різних типів несправних сторінок: 16% сторінок окремо недоступні, але походять із іншої функціональної домен кореневого рівня; інші 9% недоступні, оскільки їхній кореневий домен більше не працює.

Не дивно, що старіші знімки в нашій колекції мали найбільшу частку недоступних посилань. Зі сторінок, зібраних на знімку 2013 року, 38% більше не були доступні в 2023 році. Але навіть для сторінок, зібраних на знімку 2021 року, приблизно кожна п’ята була недоступна лише через два роки.

Гістограма показує, що приблизно 1 з 5 державних веб-сторінок містить принаймні одне непрацююче посилання

експерти відібрали близько 500 000 сторінок з державних веб-сайтів, використовуючи загальний огляд Інтернету за березень/квітень 2023 року, включно з поєднанням різних рівнів влади (федерального, штатного, місцевого та інших). експерти знайшли кожне посилання на кожній сторінці та випадково відібрали ці посилання до місця призначення, щоб перевірити, чи існують сторінки, на які вони посилаються.

На державних веб-сайтах, які експерти вибрали, було 42 мільйони посилань. Переважна більшість цих посилань (86%) були внутрішніми, тобто вони посилалися на іншу сторінку того самого сайту. Ресурс пояснення на веб-сайті IRS, який містить посилання на інші документи чи форми на сайті IRS, може бути прикладом внутрішнього посилання.

Приблизно три чверті урядових веб-сторінок, які експерти відібрали, містили принаймні одне посилання на сторінці. Типова (середня) сторінка містить 50 посилань, але багато сторінок містять набагато більше. Сторінка в 90-му процентилі містить 190 посилань, а сторінка в 99-му процентилі (тобто 1% найвищих сторінок за кількістю посилань) містить 740 посилань.

Інші факти про посилання на урядові веб-сторінки:

  • Переважна більшість переходять на захищені сторінки HTTP (і мають URL-адресу, що починається з “https://”).
  • 6% переходять до статичного файлу, наприклад PDF-документа.
  • 16% тепер перенаправляють на іншу URL-адресу, ніж та, на яку вони спочатку вказали.

Коли експерти перейшли за цими посиланнями, експерти виявили, що 6% вказують на сторінки, які більше не доступні. Подібні акції внутрішніх і зовнішніх посилань більше не працюють.

Загалом 21% усіх державних веб-сторінок, які експерти перевірили, містили принаймні одне непрацююче посилання. На всіх рівнях влади, які експерти розглядали, несправні посилання були принаймні на 14% сторінок; сторінки міської влади мали найвищий рівень непрацюючих посилань.

Гістограма показує, що 23% веб-сторінок новин мають принаймні одне непрацююче посилання

Для цього аналізу експерти відібрали 500 000 сторінок із 2063 веб-сайтів, класифікованих компанією comScore як «Новини/інформація». Сторінки було зібрано з огляду Інтернету за березень/квітень 2023 року.

На всіх вибраних новинних сайтах ця колекція містила понад 14 мільйонів посилань, що вказували на сторонні веб-сайти. 1 Близько 94% цих сторінок містять принаймні одне зовнішнє посилання. Середня сторінка містить 20 посилань, а сторінки з першими 10% за кількістю посилань мають 56 посилань.

Як і на державних веб-сайтах, переважна більшість цих посилань спрямовує на захищені HTTP-сторінки (ті, URL-адреса яких починається з «https://»). Близько 12% посилань на цих новинних сайтах вказують на статичний файл, як-от PDF-документ. І 32% посилань на новинних сайтах перенаправляли на іншу URL-адресу, ніж та, на яку вони вказували спочатку – трохи менше, ніж 39% зовнішніх посилань на урядових сайтах, які переспрямовують.

Коли експерти відстежили ці посилання до місця призначення, експерти виявили, що 5% усіх посилань на сторінках новинних сайтів більше не доступні. І 23% усіх сторінок, які експерти відібрали, містили принаймні одне непрацююче посилання.

Непрацюючі посилання приблизно так само поширені на новинних веб-сайтах з найбільшим трафіком, як і на сайтах з найменшим трафіком. Приблизно 25% сторінок новинних веб-сайтів, що входять до 20% найкращих відвідувачів, мають принаймні одне непрацююче посилання. Це майже ідентично 26% сайтів у нижніх 20% за трафіком.

Для цього аналізу експерти зібрали випадкову вибірку з 50 000 англомовних сторінок Вікіпедії та перевірили посилання в розділі «Посилання». Переважна більшість цих сторінок (82%) містять принаймні одне довідкове посилання, тобто таке, яке спрямовує читача на веб-сторінку, відмінну від самої Вікіпедії.

Загалом на всіх зібраних нами сторінках є трохи більше 1 мільйона довідкових посилань. Типова сторінка має чотири довідкові посилання.

Аналіз показує, що 11% усіх посилань у Вікіпедії більше не доступні. Приблизно на 2% вихідних сторінок, що містять посилання на посилання, кожне посилання на сторінці було несправним або іншим чином недоступним, тоді як інші 53% сторінок містили принаймні одне непрацююче посилання.

Публікації в Twitter

Кругова діаграма показує, що приблизно 1 із 5 твітів зникає з поля зору громадськості протягом кількох місяців

Для цього аналізу експерти зібрали майже 5 мільйонів твітів, опублікованих з 8 березня по 27 квітня 2023 року на платформі соціальних мереж X, яка на той час була відома як Twitter. експерти зробили це за допомогою API потокового передавання Twitter, збираючи 3000 загальнодоступних твітів кожні 30 хвилин у режимі реального часу. Це дало нам репрезентативну вибірку всіх твітів, опублікованих на платформі протягом цього періоду. експерти відстежували ці твіти до 15 червня 2023 року та щодня перевіряли, чи вони все ще доступні на сайті.

Наприкінці періоду спостереження експерти виявили, що 18% твітів із нашого початкового вікна збору більше не були загальнодоступними на сайті . У більшості випадків це сталося через те, що обліковий запис, який спочатку опублікував твіт, зробили приватним, призупинили або повністю видалили. Для решти твітів обліковий запис, який опублікував твіт, все ще був видимим на сайті, але окремий твіт було видалено.

Які твіти мають тенденцію зникати?

Гістограма, яка показує, що недоступні твіти часто надходять з облікових записів із налаштуваннями профілю за замовчуванням

Особливо ймовірно, що твіти будуть видалені або видалені протягом періоду збору, якщо вони:

  • Написано певними мовами. Майже половина всіх турецькомовних твітів, які експерти зібрали – і трохи менша частка написаних арабською мовою – були недоступні наприкінці періоду відстеження.
  • Опубліковано обліковими записами, які використовують налаштування профілю сайту за замовчуванням. Більше половини твітів з облікових записів, які використовують зображення профілю за замовчуванням, були недоступні наприкінці періоду відстеження, як і більше третини з облікових записів із полем біографії за замовчуванням. Твіти з цих облікових записів, як правило, зникають, оскільки весь обліковий запис було видалено або зроблено приватним, на відміну від видалення окремого твіту.
  • Опубліковано неперевіреними обліковими записами.

експерти також виявили, що видалені чи видалені твіти, як правило, надходять із нових облікових записів із відносно невеликою кількістю підписників і скромною активністю на сайті. У середньому твіти, які більше не були видимі на сайті, публікували облікові записи приблизно на вісім місяців молодші за тих, чиї твіти залишилися на сайті.

І коли експерти проаналізували типи твітів, які більше не були доступні, експерти виявили, що ретвіти, твіти з цитатами та оригінальні твіти не сильно відрізняються від загального середнього. Але відповіді були відносно малоймовірними – лише 12% відповідей були недоступні наприкінці періоду нашого моніторингу.

Більшість твітів, видалених із сайту, як правило, зникають незабаром після публікації. Окрім визначення кількості твітів із нашої колекції наприкінці періоду відстеження, експерти провели аналіз виживання, щоб побачити, як довго ці твіти залишалися доступними. експерти виявили, що:

  • 1% твітів видаляється протягом години
  • 3% протягом доби
  • 10% протягом тижня
  • 15% протягом місяця

Іншими словами: половина твітів, які згодом видаляються з платформи, стають недоступними протягом перших шести днів після публікації. І 90% цих твітів стають недоступними протягом 46 днів.

Однак твіти не завжди зникають назавжди. Близько 6% твітів, які експерти зібрали, зникли, а потім знову стали доступними пізніше. Це може бути пов’язано з тим, що обліковий запис став приватним, а потім повернувся до загальнодоступного, або обліковий запис було призупинено, а потім відновлено. З тих «знову з’явлених» твітів переважна більшість (90%) все ще були доступні в Twitter наприкінці періоду моніторингу.

За матеріалами: pewresearch

 

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Євген пише для TechToday з 2012 року. Інженер за освітою. Захоплюється реставрацією старих автомобілів.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися