这篇文章是关于差别隐私的系列文章的一部分。了解更多信息并浏览到目前为止在NIST隐私工程协作空间的差异隐私博客系列页面上发布的所有帖子。
部署一个满足不同隐私的实用系统并不是那么简单。我们在上一篇文章中的示例是一个简单的Python程序,它将拉普拉斯噪声添加到对敏感数据进行计算的函数中。要使其在实践中发挥作用,我们需要收集一台服务器上的所有敏感数据才能运行我们的程序。
如果那个服务器被黑客入侵了怎么办?在这种情况下,差异隐私不提供保护-它只保护我们程序的输出!
在部署不同的私有系统时,重要的是要考虑威胁模型-也就是,我们希望系统防御哪种类型的对手。如果威胁模型包括可能危害保存敏感数据的服务器的对手,那么我们需要修改系统以防范此类攻击。
因此,差异隐私系统的设计需要同时考虑隐私和安全性。正如我们在上一篇文章中所描述的,隐私指的是控制可以从数据发布中推断出什么。我们可以将安全视为一个正交问题:安全机制控制允许谁访问一段数据,但不能保证可以从该数据中学到什么。
差异隐私研究中最常用的威胁模型称为差异隐私的中心模型(或简称为中心差异隐私)。
中央模型的关键组件是可信数据管理员。每个人都将他们的敏感数据提交给数据管理员,数据管理员将所有数据存储在一个中心位置(即,在单个服务器上)。数据管理员是可信的:我们假设他们不会直接查看敏感数据,不会与任何人共享,也不会被任何其他对手泄露。换句话说,使用此模型,我们假设保存敏感数据的服务器不会被黑客攻击。
在中心模型中,我们通常会向查询结果添加噪音,就像我们在Laplace机制示例中所做的那样。该模型的优点在于,它允许算法添加尽可能少的噪声,从而在区分隐私的情况下以允许的最大精度产生结果。下图演示了此过程。我们将隐私屏障放置在可信数据管理员和分析师之间;在隐私屏障的右侧,只能查看不同的隐私结果,因此分析师不需要被信任。
差异隐私的本地模型通过消除可信数据管理员来解决中央模型中的安全问题。在将数据发送给数据管理员之前,每个人都会将噪音添加到自己的数据中。这意味着数据管理员永远看不到敏感数据,因此不需要信任。下图演示了本地模型;在这里,隐私屏障位于每个数据所有者和(不受信任的)数据管理员之间。
缺点是什么?与中心模型相比,本地模型产生的精确答案较少。在局部模型中,每个个体添加足够的噪声以满足差异隐私,因此所有参与者的总噪声比中心模型中使用的单个噪声样本大得多。
因此,本地模型只对信号非常强的查询有用。例如,苹果的系统使用本地模型来估计表情符号的受欢迎程度,但结果只对最流行的表情符号有用(即信号最强的地方)。本地模型通常不用于更复杂的查询,如美国人口普查[3]中使用的查询或机器学习等应用程序。
中央模式和地方模式各有优缺点,两者兼而有之是一个自然的目标,也是一个活跃的研究领域。
另一种方法是混洗模型,该模型在一个名为Prochlo的系统中实现[4]。混洗模型包括不可信的数据管理员和单独的数据贡献者,并添加了一组部分可信的混洗器。在此模型中,每个人向自己的数据添加少量噪声,然后将其提交给洗牌器,后者在将批量数据转发给数据管理员之前添加额外的噪声。其想法是,洗牌者不太可能与数据管理员或其他人串通,因此个人添加的少量噪音足以保证隐私。每个洗牌器都以与中央模型相同的方式对一批输入进行操作,因此少量的额外噪音保证了整批输入的私密性。混洗模型是局部模型和中心模型之间的折衷:它允许添加比本地模型更少的噪波,但需要比中心模型更多的噪波。
另一种可能性是将差分隐私与密码学的技术相结合,例如安全多方计算(MPC)或完全同态加密(FHE)。FHE允许在不先解密的情况下对加密数据进行计算,MPC允许一组各方在分布式输入上安全地计算函数,而不会泄露输入。使用安全计算来计算差分私有函数是实现中心模型的准确性和本地模型的安全益处的一种很有前途的方法。在此方法中,使用安全计算消除了对可信数据管理员的需要。最近的工作[5]展示了将MPC和差异隐私相结合的前景,并实现了中央和本地模型的大部分好处。在大多数情况下,安全计算比本机执行慢几个数量级,这对于大型数据集或复杂查询通常是不切实际的。然而,安全计算是一个活跃的研究领域,其性能正在迅速提高。请继续关注本系列后面有关此主题的更完整的博客文章。
在我们的下一篇文章中,我们将看看我们第一个实施差异化隐私的开源工具。我们将探索可以部署来回答真实数据库上的计数查询的工具,包括非专家可以使用的工具,以及可以扩展到非常大的数据库的工具,比如美国人口普查局用来统计具有不同隐私的人的工具!
[1]Erlingsson、安特法尔、Vasyl Pihur和Aleksandra Korolova。RAPPOR:随机化的可聚合隐私保护有序响应。收录于2014年ACM SIGSAC计算机和通信安全会议论文集,第1054-1067页。2014年。
[3]Garfinkel,Simson L.,John M.Abowd和Sarah Powazek。在部署不同隐私时遇到的问题。载于2018年电子社会隐私研讨会论文集,第133-137页。2018年。
[4]Bittau,Andrea,Carter lar Erlingsson,Petros Maniatis,Ilya Mironov,Ananth Raghunathan,David Lie,Mitch Rudominer,Ushasree Kode,Julien Tinnes和Bernhard Seefeld。Prochlo:在人群中进行分析的强隐私。载于第26届操作系统原理研讨会论文集,第441-459页。2017年。
[5]Roy Chowdhury、Amrita、王成红、喜贺、Ashwin Machanavajjhala和Somesh Jha。Cryptε:不可信服务器上的密码辅助差分隐私。收录于2020年ACM SIGMOD数据管理国际会议论文集,第603-619页。2020年。
这个问题是为了测试您是否是一个人类访问者,并防止自动垃圾邮件提交。
请在发表评论时保持尊重。我们将不经编辑地张贴所有评论,只要它们适合公共的、家庭友好的网站、有主题并且不包含亵渎、人身攻击、误导性或虚假信息/指控或宣传特定的商业产品、服务或组织。违反我们评论政策的帖子将不会发布。