Існує твердження, що дані сьогодні мають більшу цінність, ніж нафта. За прогнозами аналітиків, уже за рік-два кожна людина щосекунди генеруватиме 1,7 МБ приватних даних. Це чати з друзями, інформація про відвідування лікаря, послуги державних чиновників, перегляд стрічки у соцмережах тощо. Може здаватися, що ця купа даних, додатково знеособлена компаніями, гарантує приватність. Однак дослідники довели, що відшукати конкретну людину в такі анонімній купі інформації можна можна без особливих зусиль.
Ще в середині 90-х років професор Університету Гарварду Латаня Свіні довела, що анонімність при масовому зборі даних є ілюзією. Вона розкрила повну інформацію про Вільяма Велда – тогочасного губернатора Массачусетсу. Для розкриття особистості посадовця в анонімній базі даних їй знадобилося лише три шматки інформації – його дата народження, його стать та поштовий код.
Щоб ускладнити зворотну персоніфікацію людини за даними з анонімної бази, компанії запровадили новий метод під назвою «семплінг». З ним компанія не передає повну базу зібраних даних, а може поділитися лише її шматком. З таким підходом невідомо навіть, чи потрапила шукана людина в отриманий шматок бази відомостей.
Однак європейські дослідники показали, що навіть семплінг не допомагає зберегти анонімність. Маючи лише три точки даних – дату народження, стать та поштовий код, – можна ідентифікувати конкретну людину з точністю до 83%. Науковці навіть створили інструмент, який дозволяє кожному перевірити свої шанси.
Якщо використати 15 характеристик, разом з віком, статтю та сімейним статусом, конкретну людину в анонімній базі даних можна ідентифікувати з точністю до 99,98%.
Може здатися, що отримати 15 характеристик про конкретну людину є нереальним завданням. Однак Facebook, Google, Amazon, YouTube та інші мають ці відомості, аналізуючи пошукову історію, кліки на рекламі, зроблені покупки, переглянуті відео тощо. Додаткові відомості вони також докуповують від торговців даними, які надають інформацію про сімейний дохід, політичні вподобання тощо.