实施差异隐私以加强数据共享和合作

2022-02-25 12:49:23

Maxime Agostini是Sarus的联合创始人兼首席执行官。Sarus是一家由Y Combinator支持的隐私公司,让企业利用机密数据进行分析和机器学习。

李天辉是数据孵化器的创始人,该孵化器为期八周,旨在帮助博士和博士后从学术界过渡到产业界。它被实用研究所收购。此前,他在Foursquare担任货币化数据科学主管,曾在谷歌、安德烈森·霍洛维茨、摩根大通和D.E.肖工作。

1996年,麻省理工学院的一名研究人员通过将健康记录与公共选民登记数据进行匹配,在一个被认为是隐藏的数据集中确定了当时的马萨诸塞州州长的健康记录。2006年,德州大学奥斯汀分校的研究人员在一个假定为匿名的数据集中重新识别了数千人观看的电影,Netflix通过将其与IMDB的数据结合起来公开了该数据集。

在2022年《自然》杂志的一篇文章中,研究人员使用人工智能对一个据称匿名的数据集中超过一半的手机记录进行指纹识别和重新识别。这些例子都强调了攻击者如何利用“侧”信息来重新识别被认为是隐藏的数据。

这些失败导致了不同的隐私。公司将共享数据处理结果和随机噪声,而不是共享数据。设置噪声级别时,输出不会告诉潜在攻击者目标的任何统计意义:相同的输出可能来自有目标的数据库,也可能来自完全相同的数据库,但没有目标。共享数据处理结果不会泄露任何人的信息,因此保护了每个人的隐私。

在早期,实施差别隐私是一个重大挑战。第一批应用程序主要来自于拥有大型数据科学和工程团队的组织,如苹果、谷歌或微软。随着技术的日益成熟和成本的降低,所有拥有现代数据基础设施的组织如何在实际应用中利用差异隐私?

当分析师无法访问数据时,通常会使用差异隐私来生成差异隐私聚合。敏感数据可以通过API访问,该API只输出保护隐私的结果。该API可以对整个数据集执行聚合,从简单的SQL查询到复杂的机器学习训练任务。

这种设置的缺点之一是,与数据屏蔽技术不同,分析师不再通过查看单个记录来“感受数据”缓解这一限制的一种方法是提供差异私有的合成数据,其中数据所有者生成模拟原始数据集统计特性的虚假数据。