Существует утверждение, что данные сегодня имеют большую ценность, чем нефть. По прогнозам аналитиков, уже через год-два каждый человек ежесекундно будет генерировать 1,7 МБ приватных данных. Это чаты с друзьями, информация о посещении врача, услуги государственных чиновников, просмотр ленты в соцсетях и тому подобное. Может казаться, что эта куча данных, дополнительно обезличенная компаниями, гарантирует приватность. Однако исследователи доказали, что отыскать конкретного человека в такие анонимной куче информации можно без особых усилий.
Еще в середине 90-х годов профессор Университета Гарварда Латаня Суини доказала, что анонимность при массовом сборе данных является иллюзией. Она раскрыла полную информацию об Уильяме Велде – тогдашнем губернаторе Массачусетса. Для раскрытия личности чиновника в анонимной базе данных ей понадобилось лишь три куска информации – его дата рождения, его пол и почтовый код.
Чтобы усложнить обратную персонификацию человека по данным из анонимной базы компании ввели новый метод под названием «семплинг». С ним компания не передает полную базу собранных данных, а может поделиться лишь ее куском. С таким подходом неизвестно даже, попал ли искомый человек в полученный кусок базы данных.
Однако европейские исследователи показали, что даже семплинг не помогает сохранить анонимность. Имея три точки данных – дату рождения, пол и почтовый код, – можно идентифицировать конкретного человека с точностью до 83%. Ученые даже создали инструмент, который позволяет каждому проверить свои шансы.
Если использовать 15 характеристик, включая возраст, пол и семейный статус, конкретного человека в анонимной базе данных можно идентифицировать с точностью до 99,98%.
Может показаться, что получить 15 характеристик о конкретном человеке является нереальной задачей. Однако Facebook, Google, Amazon, YouTube и другие имеют эти сведения, анализируя поисковую историю, клики на рекламе, сделанные покупки, просмотренные видео и тому подобное. Дополнительные сведения они также докупают от торговцев данными, которые предоставляют информацию о семейном доходе, политических предпочтениях и прочем.