数字时代的生活使我们不断留下各种数据痕迹,大部分都不是那么有趣,比如外卖订单、网购记录等,其中一些是涉及个人隐私的,如医疗诊断信息、个人性取向以及纳税记录等。
各种公共机构保护个人身份信息的最常用方法是数据匿名化。
这包括剥离明显的可识别信息(去标识),如姓名、电话号码、电子邮件地址等。数据会模糊处理,数据表中的某些数据会被整列删除(抑制),并且引入一定“噪声”。这些隐私政策确保我们不会被定位到个人。
然而,Nature Communications期刊发表的一项新研究表明,情况并非如此。
来自伦敦帝国理工学院和比利时鲁汶大学的研究人员创建了一个机器学习模型,可以准确估计从匿名数据集中重新识别一个人的难易程度。你可以在这个链接中输入你的邮政编码、性别和出生日期来查看自己的得分。
平均而言,在美国,使用这三个信息(邮编、性别、出生日期),有81%的概率可以在“匿名”数据集中准确地追踪到你。
一个住在马萨诸塞州的人,如果你手里有与他相关的15个人口统计特征数据,那你有99.98%的概率可以在任何匿名数据库中找到他。
伦敦帝国理工学院的研究员,该项研究的作者之一Yves-Alexandre de Montjoye说:“你掌握的信息越多,识别错误的可能性就大大降低。”
这个模型背后的数据库汇集了来自五个数据源的210个不同数据集,其中包括美国人口普查信息。研究人员将这些数据输入到该机器学习模型中,让其学习哪些数据组合近乎唯一,哪些组合不唯一,然后给出正确的识别概率。
这并非第一个研究从匿名数据库中识别个人的项目。
在2007年的一篇论文中,只需少量的Netflix电影评分数据就可以像社保号码一样轻松识别一个人。这篇论文表明了目前数据匿名化技术还远落后于匿名识别技术的发展。de Montjoye说,数据集的不完整(泛化和抑制)并不能保护人们的隐私。
匿名识别并非都是坏事,今年早些时候,《纽约时报》的记者使用相同的识别技术曝光了特朗普从1985年到1994年的纳税申报表。但是,同样的方法也可能被那些想要进行身份欺诈或获取信息用于勒索的人所使用。
“问题在于我们认为数据在匿名化后是安全的,各种机构和公司也告诉我们这么做是安全的,但事实证明不是。”de Montjoye说。
英国数据隐私公司Privitar的研究负责人Charlie Cabot认为,要想真的高枕无忧,应该使用差分隐私(differential privacy)技术,这是一种复杂的数学模型。利用这项技术,公司间可以共享有关用户习惯的统计数据,但同时也可以保护个人身份信息。
这项技术将在明年首次经历重大考验,它正被用来确保美国人口普查数据库的中数据的安全。
编辑:陈孙杰(实习生)
责任编辑:顾军
来源:《自然》周刊、technologyreview