絮凝物的隐私分析

2021-06-11 03:04:33

在上一篇文章中,我写了一套新的技术“隐私保留广告”,旨在允许在不影响隐私的情况下进行广告。这篇文章讨论了其中一个联邦学习的群组(Floc) - 铬目前正在测试。 Floc背后的想法是为了使您可以根据用户的利益来定位广告,而无需向广告客户展示他们的浏览历史。我们对絮状性隐私进行了详细的分析。这篇文章提供了我们的研究结果摘要。

在当前的Web中,跟踪器(和因此广告客户)将Cookie与每个用户相关联。每当用户访问具有嵌入式跟踪器的网站时,跟踪器获取cookie,因此可以构建用户访问的站点的列表。广告商可以使用从跟踪浏览历史记录的信息来定位与给定用户的兴趣可能相关的广告。这里的显而易见的问题是它涉及广告商在你去的地方学习。

Floc用一个新的“群组”标识符替换这个cookie,它表示不是一个用户,而是一组具有相似兴趣的用户。然后,广告商可以构建所有用户在队列访问中的站点列表,而不是任何单个用户的历史记录。如果群组中用户的利益真正相似,则该队列标识符可用于广告目标。谷歌已经运行了Floc的实验;与使用跟踪cookie的利息的广告目标相比,他们指出,絮凝物提供了95%的每美元转换率。

虽然任何给定的队列将相对较大(确切的大小仍在讨论中,但这些组可能由数千个用户组成,这并不意味着它们不能用于跟踪。因为只有几千人分享给定的队列ID,如果跟踪器有任何大量的其他信息,他们可以很快缩小一组用户。有许多可能的方式可能发生:

并非所有浏览器都是一样的。例如,有些人使用Chrome和一些使用Firefox;有些人在Windows上,其他人在Mac上;有些人会说英语,其他人讲法语。每个特定于用户特定的变化可用于区分用户。与只有几千名用户的絮凝群结合时,需要相对少量的信息来识别个人或至少将絮凝群缩小到几个人。让我们举一个例子,使用一些卓越的数字。想象一下,您有一个指纹识别技术,将人们分为大约8000个组(这里的每个组比邮政编码大量比较大)。这不足以单独识别人们,但如果它与使用约10000的队列大小的群体结合使用絮状物,那么每个指纹识别组/絮凝队队列对的人数将非常小,可能像一个一样小。虽然可能存在更大的群体,但不能以这种方式识别,但是与拥有没有个人定位的系统不同。

人们的兴趣并不常态,也不是他们的絮状物。目前,弗洛夫ID似乎每周都会重新计算。这意味着如果跟踪器能够随时间使用其他信息来链接用户访问,它们可以在第1周,第2周等中使用絮凝ID的组合来区分个别用户。这是一个特别的担忧,因为它即使使用现代的反跟踪机制,如Firefox的总饼干保护(TCP)。 TCP旨在防止跟踪器与站点的访问权限关联,但不是多次访问一个站点。即使用户启用了TCP,Floc也恢复跨站点跟踪。

使用基于Cookie的跟踪,跟踪器获取的信息量由其嵌入的网站数确定。此外,想要了解用户兴趣的网站必须自己参与跟踪大量站点的用户,使用一些合理的大型跟踪器,或与其他跟踪器一起工作。在允许cookie策略下,使用第三方cookie和cookie同步,这种类型的跟踪很简单。但是,当第三方cookie被阻止(或在TCP中的站点隔离)时,跟踪器更困难地收集和分享有关用户跨网站兴趣的信息。

Floc破坏了这些更多限制性的cookie策略:因为絮凝物ID在所有网站上都是相同的,所以它们成为了跟踪器可以将数据与外部来源相关联的共享密钥。例如,具有大量具有大量第一方兴趣数据的跟踪器可以操作服务,该服务仅回答关于给定絮凝ID的兴趣的问题。例如,“拥有这种队列的人喜欢汽车吗?”。所有网站都需要做的是调用Floc API来获取Cohort ID,然后使用它来查找服务中的信息。此外,ID可以与指纹数据相结合,以问“住在法国的人,有MAC,运行Firefox,并拥有这个ID就像汽车?”这里的最终结果是,任何网站都能够对您的努力来学习很多,而不是今天需要消耗。

首先,网站可以选择是否参与絮凝物。在Chrome正在进行的当前实验中,如果它们执行ADS类型的东西,则包括“加载广告和相关资源”或调用Floc API,则包括在Floc计算中。目前尚不清楚最终的包含标准是什么,但默认情况下,似乎包括广告的任何网站都将包含在计算中。网站也可以完全使用权限策略HTTP标头选择絮状物,但似乎很可能很多网站都不这样做。

其次,谷歌本身将抑制它认为与“敏感”主题密切相关的絮凝队。谷歌在这个白皮书提供了详细信息,但基本思想是他们希望看到给定队列中的用户更有可能访问与敏感类别相关的一组网站,如果是,它们只会返回一个空那个队列的队列ID。同样,他们说他们会删除他们认为与絮凝计算敏感的网站。这些防御似乎是非常难以在实践中执行的几个原因:(1)敏感类别列表可能不完整,或者人们可能不同意哪些类别是敏感的,(2)可能还有其他网站与敏感网站相关但不是自己敏感,并且(3)聪明的跟踪器可能能够学习敏感信息,尽管这些控制。例如:可能是使用Floc ID X的英语用户不太可能访问敏感站点A类型,但是语言信息。

虽然这些缓解似乎有用,但它们似乎大多是利润率的改进,并且不解决上述基本问题,我们认为我们认为需要进一步研究社区。

Floc在一个引人注目的想法上前提:使得广告目标在不使用户冒险的情况下实现。但是当前设计具有许多隐私属性,如果要以其当前形式广泛部署,则可能会产生重大风险。这些属性可能是固定的或减轻的 - 我们建议我们分析中的一些潜在的途径 - 应侧重于解决这些问题的Floc进一步的工作。