k-匿名

2021-04-07 03:11:57

跳转到导航跳转以搜索k-匿名是某些匿名数据所拥有的属性。 K-Anonymity的概念是由Latanya Sweeney和Pierangela Samarati引入1998年[1]的纸张作为解决问题的尝试:"给定的人特定的现场结构化数据,产生了释放具有科学的数据保证,无法重新识别数据的主题的人,而数据仍然实际上是有用的。"如果不能区分释放中包含的每个人的信息,则据说数据的释放是具有k-匿名属性的释放,其中不能与k - 1 {\ displaystyle k-1}个体区分开信息也出现在释放中。

K-Anonymity在2018年获得了广泛的媒体覆盖,当英国电脑科学家junade Ali使用Cryptography Hashing的属性来创建通信协议以匿名验证密码是否已泄露,而无需公开搜索密码。 [5] [6]本协议被实施为特洛伊狩猎的公共API'我是否被PWNED?服务并由多个服务消耗,包括密码管理器[7] [8]和浏览器扩展。 [9] [10]此方法稍后被谷歌' s密码核对功能复制。 [11] [12] [13]

在K-Anymyization问题的上下文中,数据库是一个具有n行和m列的表。表中的每一行表示与种群的特定成员有关的记录,以及各个行中的条目无需唯一。各个列中的值是与人群成员相关的属性的值。下表是一个不可嘀咕的数据库,由Kochi的一些虚构医院的患者记录组成。

此数据中有6个属性和10条记录。有两种常用方法可以实现k-匿名的k。

抑制:在这种方法中,某些属性值由星号&#39取代; *'列的全部或某些值可以由&#39替换; *'在下面的匿名表中,我们替换了&#39中的所有值;姓名'属性和&#39中的所有值;宗教'与a' *'

概括:在这种方法中,用更广泛的类别替换属性的单个值。例如,值' 19'属性'年龄'可以被&#39所取代; ≤20'值' 23' ' 20<年龄≤30' , ETC。

该数据具有关于属性&#39的2 - 匿名;年龄&#39 ;,'性别'和#39;居住地'由于对于在表的任何行中找到的这些属性的任何组合,因此总有至少2行具有这些确切属性。对攻击者可用的属性称为准标识符。每个准识别仪组元组在具有k-匿名的数据集的至少k记录中。 [14]

Meyerson和Williams(2004)展示了最佳的k-匿名是一个NP难题,但是k-Optizize等启发式方法,如Bayardo和Agrawal(2005)所给出的,通常会产生有效的结果。 [16] [16]通过Kenig和Tassa提出了一种具有o(log⁡k){\ displaystyle o(\ log k)}的近似保证的k-匿名化问题的实用近似算法。 [17]

虽然K-匿名是一种有希望的方法来考虑到基于组的匿名化,但是,给出了它的简单和广泛的算法,然而,它易于许多攻击。当攻击者提供背景知识时,这种攻击变得更加有效。此类攻击包括:

同质性攻击:此攻击利用了一组K记录内敏感值的所有值相同的情况。在这种情况下,即使数据已经k-anymanyized,也可以完全预先预测该组k记录集的敏感值。

背景技术知识攻击:此攻击利用一个或多个准识别仪属性之间的关联,具有敏感属性来减少敏感属性的一组可能值。例如,Machanavajjhala,Kifer,Gehrke和Venkitasubramaniam(2007)表明,知道心脏病发作以减少的日本患者的速率发生,可用于缩小患者患者敏感属性的值范围。

因为k-匿名化不包括任何随机化,因为攻击者仍然可以对可能伤害个人的数据集进行推断。例如,如果已知从喀拉拉的19岁的约翰在上面的数据库中,那么它可以可靠地说他有癌症,心脏相关疾病或病毒感染。

K-Anymyization不是匿名高维数据集的好方法。例如,研究人员表明,给定4个位置,移动电话时间戳 - 位置数据集的单性(例如,当k = 1时,k-antyly {e},k-匿名性{ \ displaystyle k = 1})可以高达95%。 [19]

还显示出k-匿名可以倾斜数据集的结果,如果它不成比例地抑制和概括具有不可验证特征的数据点。然而,用于k-匿名数据集的抑制和泛化算法可以改变,因此它们没有这种倾斜效果。 [21]

基于哈希的K-Anonymity已被junade Ali开发,最初用于防止受损凭证检查[22] [23] [24],以后用于实时对MAC地址的匿名。 [25]

这种方法通过拍摄一维数据的加密散列来工作,并截断散列,使得至少k - 1 {\ displaystyle k-1}哈希冲突。这种方法允许有效地匿名搜索大型数据集,例如违反密码。该方法可以进一步用于提供对隐私敏感数据的正式明显的匿名水平,允许在信息泄漏和功能之间进行精确的权衡(例如用于MAC地址匿名)。 [27] [28]

^撒玛拉蒂,皮埃利拉; Sweeney,Latanya(1998)。 "在披露信息时保护隐私:k-匿名及其通过泛化和抑制&#34的执法; (PDF)。哈佛数据隐私实验室。

^ p. samarati。保护受访者' Microdata发布中的标识。 IEEE关于知识和数据工程的交易Archivevolume 13号第6期,2001年11月6日。

^ l. sweeney。 k-匿名:保护隐私的模型。国际期刊关于不确定性,模糊和知识系统,10‰,2002; 557-570。

^ conger,凯特。 " 1Password有助于您了解您的密码是否是PWNED" gizmodo。

^ Condon,Stephanie。 " Okta提供免费的多因素身份验证,其中包含新产品,一个应用程序| ZDNet" ZDNet。

^ Roberto J. Bayardo; Rakesh Agrawal(2005)。通过最佳k-anymization(PDF)的数据隐私。 ICDE' 05年度数据工程国际会议的第21次会议课程。第217-28页。 DOI:10.1109 / ICDE.2005.42。 ISBN 978-0-7695-2285-2。 ISSN 1084-4627。 S2CID 17044848.数据取消识别对调整对研究目的的数据的需求以及对个人隐私的需求。本文提出并评估了称为k-匿名化的强大去识别过程的优化算法。 k-anymony dataSet具有每个记录无法从至少k - 1难以区分的属性。即使是优化的K-匿名的简单限制也是NP - 硬,导致显着的计算挑战。我们提出了一种新的方法来探索可能的匿名空间,这些方法会介绍问题的组合信息,并开发数据管理策略,以减少对昂贵的操作等昂贵的操作。通过实验对实际人口普查数据,我们显示所得算法可以在两个代表成本措施和广泛的k下找到最佳的k-anymonyizations。我们还表明,在输入数据或输入参数在合理时间内排除最佳解决方案的情况下,该算法可以在良好的情况下产生良好的匿名。最后,我们使用该算法探索不同编码方法和问题变化对匿名质量和性能的影响。据我们所知,这是第一个结果在问题的一般模型下展示了非竞争数据集的最佳k-匿名化。

^ Adam Meyerson; Ryan Williams(2004年)。关于最佳k-anonymity的复杂性(PDF)。 PODS' 04年度关于数据库系统原则的二十三个ACM SIGMOD-SIGART-SIGART研讨会的程序。纽约,纽约:ACM。第223-8页。 DOI:10.1145 / 1055558.1055591。 ISBN 978-1581138580。 S2CID 6798963.在文献中提出了k-anymony化的技术作为发布公共信息的替代方法,同时确保数据隐私和数据完整性。我们证明,两个常规版本的关系的常规版本是NP - 硬,包括抑制版本,其中包含从关系中删除的最小条目数量。我们还提出了一种多项式时间算法,用于最佳k-匿名,当k是常数时,实现与数据库的大小无关的近似比。特别是,它是一个(k log k) - 批量静验,其中Big-o中的常数不超过4.但是,算法的运行时间是k中的指数。稍微更聪明的算法删除了这种情况,但是是一个(k logm) - 批准,其中m是关系的程度。我们认为这种算法可能在实践中可能相当快。

^ Kenig,Batya;塔萨,塔米尔(2012年)。 "最佳K-Anonymity&#34的实际近似算法;数据挖掘和知识发现。 25:134-168。 DOI:10.1007 / S10618-011-0235-9。 S2CID 14158546。

^ Aggarwal,Charu C.(2005)。 "关于k-匿名和维度&#34的诅咒; VLDB' 05 - 第31届国际大规模数据基地会议的会议记录。特隆赫姆,挪威。 CITESEERX 10.1.1.60.3155。 ISBN 1-59593-154-6。

^ de Montjoye,Yves-Alexandre; CésarA. Hidalgo; Michel Verleysen; Vincent D. Blondel(2013年3月25日)。 "人群中的独特:人类流动性的隐私范围" (PDF)。科学报告。 3:1376.BIBCODE:2013NATSR ... 3E1376D。 DOI:10.1038 / SREP01376。 PMC 3607247.PMID 23524645。

^安吉尼,奥利维亚;乔布莱兹斯坦;吉姆沃尔多。 "如何去识别您的数据" ACM队列。 ACM。

^安吉尼,奥利维亚; Jim Waldo(2016年6月)。 "泛展和抑制之间的统计权衡在去识别大规模数据集时" IEEE计算机协会INTL计算机,软件和应用程序会议:589-593。 DOI:10.1109 / compsac.2016.198。 ISBN 978-1-4673-8845-0。 S2CID 17716908。

^李,露西; PAL,Bijeeta;阿里,君穿;沙利文,尼克; Chatterjee,Rahul; Ristenpart,托马斯(2019年9月4日)。 "检查受损凭证的协议" ARXIV:1905.13737 [CS.CR]。

^ Ali,junade; dyo,vladimir(2020)。 " Mac地址的实际哈希基匿名"第17届国际安全和加密会议(塞里特2020):572-579。 arxiv:2005.06580。 DOI:10.5220 / 0009825105720579 ISBN 978-989-758-446-6。 S2CID 218629946。

^ Ali,junade; dyo,vladimir(2020)。 " Mac地址的实际哈希基匿名"第17届国际安全和加密会议(塞里特2020):572-579。 arxiv:2005.06580。 DOI:10.5220 / 0009825105720579 ISBN 978-989-758-446-6。 S2CID 218629946。

^ Demir,Levent; Kumar,Amrit; Cunche,Mathieu; Lauradoux,Cédric(2018)。 "哈希隐私的陷阱"通信调查和教程,IEEE通信社会。 20(1):551。DOI:10.1109 / COMT.2017.2747598。 S2CID 3571244。