我们提供的技术实验结果显示,微信完全在非中国注册帐户之间进行的通信受到普遍内容监视,而这在以前被认为是专为中国注册帐户保留的。
完全在非中国注册账户之间传输的文件和图像将接受内容监控,其中这些文件将被分析以查找在中国具有政治敏感性的内容。
经过分析,被认为是政治敏感的文件被用来无形地训练和建立微信的中国政治审查制度。
从公开信息来看,目前尚不清楚腾讯是如何使用非中国注册用户的数据来实现内容屏蔽的,也不清楚是什么政策理由允许微信在国际和中国地区之间共享用于屏蔽的数据。
腾讯对数据访问请求的回应未能澄清国际用户的数据是如何被用来在中国对该平台进行政治审查的。
过去十年的大量研究表明,中国的在线平台如何受到例行审查,以遵守政府规定。随着中国公司进入中国以外的市场,他们的活动也受到了密切关注。例如,基于视频的社交媒体公司TikTok被指控在其平台上审查在中国可能敏感的内容。中国人拥有的同性恋、双性恋、跨性别者和同性恋者在线约会平台1Grindr受到怀疑,称其可能被用来监控、跟踪或以其他方式危及美国用户。2个。
微信是中国最受欢迎的社交媒体平台,也是全球第三大社交媒体平台。3在该平台主导中国市场的同时,它也在努力实现国际化,吸引全球用户。与在中国运营的任何其他互联网平台一样,微信预计将在禁止内容方面遵守中国当局的规章制度。之前的公民实验室研究表明,微信必须保持平衡,因为它试图将自己控制在中国的政府红线以内,并吸引国际用户。微信对注册在中国大陆电话号码上的用户实施审查。这种审查是在没有通知用户的情况下进行的,并且通常会根据当前事件进行动态更新。4.。
在之前的工作中,没有证据表明这些审查功能影响了账户未注册到中国电话号码的用户。这些用户可以发送和接收拥有中国注册账户的用户不能发送和接收的消息。在这份报告中,我们显示,在非中国注册账户之间共享的文件和图像受到内容监控,并被用来建立微信用来审查中国注册账户的数据库。5通过对微信隐私协议和政策文件的分析,我们发现该公司没有对内容监控功能提供明确的参考或解释,因此在没有进行自己的技术实验的情况下,用户无法确定是否以及为什么要应用内容监控。因此,通过微信发送敏感内容的非中国用户可能在不知不觉中助长了中国的政治审查制度。
第一部分:背景介绍了微信的背景,并概述了以往关于微信平台上的监控和审查的研究。
第二部分:技术评估介绍了我们的技术实验,包括用于揭示非中国注册账户受到监视的旁路方法,以及分析得出的发现和讨论。
第三部分:政策评估展示了政策分析的结果,其中包括询问腾讯面向公众的政策文件,并就腾讯如何处理国际用户的通信内容与该公司直接联系。
第4部分:数据访问请求评估讲述了我们对微信数据发出数据访问请求的做法和没有做的事情,并表明这种方法未能揭示平台上的内容监控。
第五部分:结语,提供简要的结论,讨论我们的研究结果的广泛意义,并为未来的研究提供途径。
微信(中文名为微信微信)是中国最受欢迎的社交媒体应用之一,截至2019年末,其在中国和海外的月度活跃用户达到11.5亿。6这款应用由中国最大的科技公司之一腾讯拥有和运营,于2011年推出,是一款移动即时通讯应用。从那以后,腾讯的微信/微信集团7在微信身上开发了各种沟通功能,包括即时通讯(例如一对一私人聊天、群聊)、微信朋友圈(即类似facebook的时间轴,用户可以与朋友分享文字更新、上传图片以及分享短视频或文章),以及公众账号平台(即一个类似博客的平台,允许个人作者和企业为普通受众撰写文章)。据报道,每天有450亿条信息使用微信发送。8个。
中国市场给互联网平台提供商带来了独特的挑战,因为法律法规要求公司对其平台上发布或传输的内容负责。预计公司将投资于人力资源和技术,以缓和内容,并遵守政府关于内容控制的规定。不从事这种适度合规活动的公司可能会被罚款或吊销营业执照。与此同时,中国关于内容控制的法律法规定义宽泛,禁止的话题从“扰乱社会秩序和稳定”或“损害国家荣誉和利益”,到跨越“社会主义底线”。9此前的研究表明,这些定义模糊的指导方针往往会导致公司和个人进行自我审查。10个。
以前的工作表明,微信对在微信中国服务条款下运营的用户进行无处不在的政治审查;我们通常将这些帐户称为中国注册的帐户。最初注册到中国大陆电话号码的11个账户属于这些服务条款,即使用户后来将他们的账户链接到非中国电话号码,这些账户仍然属于这些条款。在其他内容类别中,发送到中国注册账户或从中国注册账户发送的文件和通信都会被评估为政治敏感性。如果发现通讯内容敏感,平台上所有在中国注册的账户都会被审查。
之前的工作发现,微信将中国注册账户发送的图片置于两种不同的监控之下。14由于分析图像灵敏度所需的计算昂贵且耗时的方法,这些方法不容易适应实时运行。因此,微信首先对这些图像进行文件散列监视,以评估该图像之前是否被归类为敏感图像,这是通过检查文件的散列是否存在于已知敏感文件散列的散列索引中来确定的。该散列索引检查是实时执行的。如果图像的文件散列在散列索引中,则会对其进行实时审查。不在已知敏感文件的散列索引中的图像会接受内容监视。这种监视涉及对图像进行分析,以确定它在视觉上是否与任何列入黑名单的图像相似。此外,提取并分析图像中的文本以确定是否有任何文本被列入黑名单。如果发现图像敏感,则会将其文件散列添加到散列索引中,以实现将来的实时审查。值得注意的是,之前的测试发现,内容监控从来没有实时执行过,而且第一次传输敏感图像文件时,它没有被审查。
在这篇报道中,我们再来回顾一下微信是如何实施图像监控的。我们第一次考察了微信是如何对通过该平台发送的文件进行监控和审查的。此外,我们还检查了完全在非中国注册帐户之间通信的图像和文件是否受到以前发现适用于与中国注册帐户之间通信的相同监视做法。
什么是MD5散列?散列函数旨在将数据输入(如消息或文件)映射到称为散列的短的、固定大小的输出。MD5散列函数是加密散列函数,它是具有特殊密码属性的散列函数。与普通散列函数相比,密码散列函数具有许多附加属性,但是其中一个这样的属性是,寻找两个不同的输入使得散列函数将它们映射到相同的输出应该是不可行的。也就是说,找到具有相同散列的两个不同输入应该是不可行的。MD5是1991年设计的较旧的加密散列函数。
下图说明了将文件(例如,文档或图像)映射到MD5散列的过程。在该示例中,两个不同的图像被输入到密码散列函数,从而产生两个唯一的MD5散列。
由于通信监视本质上是不可见的,因此测量通信监视可能是具有挑战性的。在没有审查制度的情况下(审查制度以一种具有可衡量的影响的方式限制通信(例如,消息无法传递),监视可能很难检测到)。为了检测非中国注册账户的通信监控,我们开发并运行了两个旁路实验。在这两个实验中,我们使用了两个渠道,一个完全在非中国注册帐户之间通信,另一个与中国注册帐户通信。通过利用审查在中国注册的微信账户的散列指数作为辅助渠道,我们能够通过衡量第二个渠道的审查情况来推断第一个渠道正在进行内容监控。我们开发并执行了第三个实验,测试调用包含文件的消息是否会从散列索引中删除该文件的散列。
简而言之,虽然我们没有发现非中国注册账户之间的通信受到审查,但我们确实证明了这些账户仍然受到内容监控。这种监控是通过确认只在非中国注册账户之间发送的政治敏感内容被确定为政治敏感内容而发现的,随后当在中国注册账户之间传输时,在没有之前发送到中国注册账户或在中国注册账户之间传输时,这些内容被审查。在本节的其余部分中,我们将解释我们的实验前分析、我们的实验设计,并展示我们的实验结果。
在设计侧通道实验之前,我们首先调查了发送到中国注册帐户或来自中国注册帐户的敏感文件是否使用散列索引进行了监视和审查。通过将敏感文件发送到在中国注册的帐户,我们可以观察哪些文件被审查。我们发现,包含某些敏感关键字组合(如“法輪功[+]法輪大法”(法轮功+法轮大法))的文档(如utf8编码的纯文本(*.txt)、Microsoft Word(*.docx)和可移植文档格式(*.pdf)等文档均被审查。作为我们调查的一部分,我们在多天内发送了多份文件。特别值得一提的是,我们在11月25日至26日期间,也就是我们的实验之前,发送了50多封邮件,还有50多封。
在这一部分中,我们介绍了我们的第一个侧信道实验,该实验测试通过微信传输的敏感文档和图像的内容监视。我们称这个实验为统计实验,因为这个实验使用了统计分析。
在这个实验中,我们使用两个微信群聊对话作为我们的两个交流渠道:
非中国群聊。这个群聊包含三个非中国注册的微信账号,注册在加拿大的电话号码上。在这个群聊中,一个非中国注册的账户完全在其他非中国注册的账户之间发送内容。
中国群聊。此群聊包含两个注册为加拿大电话号码的非中国注册微信账号和一个注册为中国大陆电话号码的微信账号。在此群聊中,非中国注册帐户同时向非中国注册帐户和中国注册帐户发送内容。在这个群聊中,我们感兴趣的是在中国注册的账户是否收到了内容,或者内容是否被审查了。
我们的实验依赖于测试微信的审查散列索引中是否存在文件的散列。通过在中国群聊中发送一个文件,并实时测量该文件是否被审查,我们可以测试其散列是否已经在散列索引中。但是,作为此测试的结果,如果散列尚未存在,我们会将散列引入散列索引中。因此,重要的是,每当我们执行新的测试时,我们都会发送一个唯一的文件,其中包含以前从未通过微信发送过的散列。我们称这样的文件为新奇文件,因为它的散列对于微信平台来说是新奇的。
在本节的其余部分中,我们将解释我们的侧通道实验的设计,该实验用于测试文档和图像文件在完全通过非中国注册帐户发送时的内容监视。
我们执行了以下测试,以评估非中国注册账户是否进行文档内容监控:
记录侧通道测试。我们先在非中国的群聊中发送一份新颖、敏感的文件,然后在中国的群聊中发送同样的文件。如果文档在发送到中国注册的账户时被实时审查,那么我们得出结论,在非中国群聊之间的交流过程中,敏感文档受到了监视。
在此文档侧通道测试中,散列索引充当侧通道,通过测量中国群聊中的审查来泄露有关非中国群聊是否处于内容监控之下的信息。这种方法足以测试文档监视的存在,因为在测试时,微信没有实时审查文档。因此,每当我们观察实时文件审查时,我们都可以得出结论,该文件以前曾受到监视。
在图片文件的情况下,我们观察到,有时微信会实时审查它们,即使它们之前没有在平台上进行过内容监控。为了适应这一行为,我们发送了足够多的图像,以便如果完全通过非中国注册账户发送的图像经过内容监控,那么即使在没有内容监控的情况下有时会发生实时审查,我们仍然能够区分这种监控对实时审查的影响。具体地说,我们首先进行以下测试:
图像侧通道测试。我们先在非中国的群聊中发送n张新颖、敏感的图片,然后在一分钟后在中国的群聊中发送相同的图片。我们统计有多少图片没有被中国注册的账户接收到。
然后,我们将上一次测试的删除图像数与下面的测试中的删除图像数进行比较:
图像控制测试。我们在中国群聊中发送了n张新颖、敏感的图片。我们统计一下有多少没有通过中国注册的账户收到。
这两个测试的不同之处在于,在图像侧通道测试中,我们首先在非中国注册帐户之间发送图像,然后再将其发送到中国注册帐户,而在图像控制测试中,我们将图像发送到中国注册帐户,而不是首先将其发送到非中国注册帐户。如果在图像侧通道测试中被审查的图像数量明显更多,那么我们可以得出结论,在非中国注册的账户之间发送图像正在促进中国的实时审查。
我们使用统计假设检验来确定图像侧通道测试中被审查的图像数量是否比图像控制测试中的图像数量在统计上显着增加。也就是说,我们在零假设下执行卡方检验17,即从非中国注册帐户向非中国注册帐户发送图像不影响它们稍后被发送到中国注册帐户时被实时审查的概率。如果根据卡方检验,我们可能会拒绝零假设,那么我们可以得出结论,在非中国注册账户之间发送的图片完全处于内容监控之下,正在为微信的中国审查制度做出贡献。
对于每个图像测试,我们发送n个新图像。我们的愿望是选择一个足够高的n,以便我们的统计测试有足够的能力来确定非中国注册帐户之间是否存在内容监控。但是,我们也希望n足够低,以将微信对我们的测试帐户采取不利行动的风险降至最低(例如,众所周知,微信会暂停或禁止帐户以响应审查测试18)。在我们的实验中,我们将评估选择n=60。
对于文档和图像测试,每项测试都要求我们发送以前未通过平台发送的新颖、敏感的文档或图像,以确保敏感文件的散列不在散列索引中。原则上,我们可以使用完全不同的敏感文档和图像。但是,这种方法将限制我们只能执行与我们已知的敏感文件一样多的文件传输。因此,为了便于测试,我们通过对单个敏感文档和单个敏感图像进行细微修改来生成新颖的敏感文件;我们称之为每个种子文件。这些修改旨在更改这些文件的散列,而不会改变它们被识别为敏感的能力,因此,我们可以生成无限数量的敏感文档和图像。在本节的其余部分中,我们将说明对于文档和图像,我们使用哪个种子文件,以及如何生成种子文件的新副本以使派生文件保持敏感。
lorem ipsum法轮大法法輪大法法轮功法輪功lorem ipsum。
对于文档,我们使用一个*.docx文件作为种子文档,该文件包含法轮大法和法轮功的简体和繁体中文字符,以及一些填充文本(参见图5)。为了创建一个新颖的、仍然敏感的副本,我们随后附加了64个字母集。
..