pixabay.com
想象一下,两个百万富翁相互不服气,想比较一下到底谁更有钱,但是比较的过程还不想泄露家底,他们该如何操作呢?
根据数据和计算任务是否集中,目前隐私计算可分为三个主要方向和多种技术路线。一是安全多方计算,这是针对数据和计算都不集中的情况,主要技术路线有混淆电路和秘密共享两种;二是数据不集中、计算集中,这个方向的主要技术有数据脱敏、差分隐私保护、同态加密等;三是数据和计算都集中,这个方向包括可信执行环境和数据沙箱等。
安全多方计算这个研究方向起源于图领奖得主、中科院院士姚期智于1982年提出的“百万富翁问题”,在这道“烧脑题”中,如果有一个可信的第三方,问题就能迎刃而解,安全多方计算研究的就是如何以密码学技术代替这样一个可信的第三方,在保护参与者隐私的同时完成计算任务。 姚期智先生在提出并解决“百万富翁问题”后,又于1986年提出了混淆电路技术。混淆电路在计算过程中始终处于加密状态,不泄露参与计算双方的任何私有信息,但能计算出正确的结果,在理论上解决了两方参与的隐私计算问题。 秘密共享方案则以秘密共享的方式,将每根线上的值共享给所有参与者,每个参与者都被分配了一份秘密份额,只有将足够多份不同的秘密份额组合在一起,才能恢复出完整的信息。
2008年,丹麦部署了世界上首个实际应用的安全多方计算系统,由丹麦唯一的甜菜处理商丹尼斯克、丹麦甜菜种植者协会、丹麦政府下属机构SIMAP等三方共同计算来年的甜菜种植计划和收购价格。
随着近年来技术方案(特别是布尔电路编译技术)的迭代优化,以及通信基础设施的快速发展,采用秘密共享方案的安全多方计算平台变得越来越实用,距离大规模应用仅一步之遥,被视为未来隐私计算最有潜力的发展方向。
第二条技术路径是“数据不集中、计算集中”,其核心思想是对数据进行变形、扰动、加密等操作,保障无法从流出的信息中恢复出原始数据。具体的技术主要有三种:数据脱敏、差分隐私、同态加密。
如果说数据脱敏是通过对敏感信息“做减法”的方式实现隐私保护,那么差分隐私就是以“掺沙子”的方式,在数据或计算结果上添加一定强度的噪声,保证传出的信息不能精确反映用户的隐私信息。比如在统计平均身高的场景下,每个人在提交身高数据之前,加上一个随机的误差,根据统计学即可估计随机误差对计算结果的影响,最终校正后的结果仍能较好反应实际的平均身高。 数据脱敏和差分隐私的技术方案非常简单,已被苹果、谷歌等公司用于收集用户使用情况的统计数据。但是这两种方案都会降低数据的质量,因而其应用范围很受限制,通常只用于统计类的计算任务。
同态加密则是用技术方式,在不影响数据运算结果的前提下,将数据变为密文,然后在密文上进行运算,最终的计算结果对应于先在明文上进行相同计算后再加密所得的结果。因为计算时看不到数据的明文,所以不会泄露隐私。
第三个方向“数据和计算都集中”,其核心思想是通过工程手段构建一个可信的计算平台,将其作为一个“可信的第三方”来使用。具体来说,就是通过隔离机制构建出一个安全可控的区域,数据在这个足够安全的空间中被集中使用且不流出,从而保证数据的隐私性和计算结果的正确性。
这一方向主要的技术方案是可信执行环境(TEE)。该技术通过软硬件隔离安全机制建立一个安全隔离的执行环境,从而防止外部攻击者(包括系统管理员)窃取TEE内部运行的数据。TEE具备支持多层次、高复杂度的算法逻辑实现,具有运算效率高、可信度量保证运行逻辑可信等特点,是目前效率最高的隐私计算解决方案。然而,由于TEE依赖于CPU等硬件来实现,必须确保芯片厂商可信,其安全性存在一定的单点风险。
作者:杨光(上海树图区块链研究院研究总监)
编辑:沈湫莎
责任编辑:任荃