2013年夏天,我花了几天时间筛选美国记者手中最广泛的绝密档案。爱德华·斯诺登(Edward Snowden)曾在美国国家安全局(National Security Agency)担任承包商,他向我、专栏作家格伦·格林沃尔德(Glenn Greenwald)和纪录片制片人劳拉·普瓦拉斯(Laura Poitras)传递了数万份机密文件,这是一起违反国家安全局(National Security Agency)的壮观行为。
节选自“暗镜:爱德华·斯诺登与美国监视国家”,作者是巴顿·盖尔曼。在亚马逊上购买。
其中一份文件是2013年6月首次公开的,文件显示,美国国家安全局正在追踪美国人在美国境内打出的数十亿通电话。这个节目变得臭名昭著,但它的全部故事还没有被讲述。
第一批报道只透露了一些基本情况。如果您拨打了电话,无论是本地的还是国际的,NSA都会存储您拨打的号码,以及通话的日期、时间和持续时间。这是国内监视,简单明了。当故事曝光时,美国国家安全局对侵犯隐私的行为不屑一顾。它说,该机构“只收集元数据”,而不是电话内容。它说,只有在极少数情况下,它才会搜索记录,寻找恐怖分子之间的联系。
我决定更深入地钻研。这场公开辩论遗漏了重要信息。我突然想到,我甚至不知道这些记录是什么样子的。起初,我把它们想象成一个简单的(如果是庞大的)列表。我假设国安局清理了列表-日期在这里,通话时长在那里-并将其转换为该机构首选的“原子信号数据格式”。否则我会认为这些记录是惰性的。那年7月,在斯诺登首次披露消息六周后、波士顿马拉松爆炸案发生三个月后,在阿斯彭安全论坛(Aspen Security Forum)的一次谈话中,前国家情报总监、海军上将丹尼斯·布莱尔(Dennis Blair)向我保证,在下一名波士顿爆炸案袭击者出现之前,这些记录都是原封不动地“储存”的。
即便如此,收藏品的规模也让人想起了法律学者保罗·欧姆(Paul Ohm)的一句激动人心的话。他写道,任何足够数量的信息都相当于一个“毁灭数据库”。它掌握着个人秘密,“如果泄露,不仅会造成尴尬或羞辱,还会造成严重的、具体的、毁灭性的伤害。”他写道,发达国家的几乎任何人“都可以与计算机数据库中的至少一个事实联系起来,对手可以利用这些事实进行勒索、歧视、骚扰、金融或身份盗窃。”例如,揭露“过去的行为、健康或家庭耻辱”可能会让一个人失去婚姻、职业、合法居住权或身体安全。
仅仅是这样一个数据库的创建,特别是在秘密情况下,就深刻地改变了政府和被统治者之间的权力平衡。这是暗镜的化身,玻璃的一面透明,另一面暗淡。如果权力暗示似乎不能令人信服,试着在你的脑海中颠倒这种关系:如果一小群公民秘密访问政府官员的电话日志和社交网络,会发生什么?这些特权知识会如何影响他们塑造事件的能力?如果他们拥有羞辱和摧毁当权者职业生涯的手段,他们的互动会发生什么变化?无论是否使用,功能始终很重要。未开火的枪在拔出之前杀伤力丝毫不减。事实上,在历史上,能力并不是长期不用的。契诃夫对剧作家的著名训诫不仅适用于戏剧,也适用于人类的生活经验。第一幕中展示的枪-核弹头,武器化疾病,奥威尔式的摄像机跟踪每条街道的面孔-必须在最后一幕中开火。新发明的潜在力量,无论一开始多么令人厌恶,都不会永远潜伏在政府的军火库里。
这些可以说是抽象的关注点,但我认为它们相当真实。到了那年9月,我才意识到还有一些具体的问题我没有充分探索。电话记录在国安局内部的什么地方?他们在那里发生了什么事?斯诺登的档案没有直接回答这些问题,但有线索。
当月晚些时候,我偶然发现了第一条线索。我对美国国家安全局关于“批量收集”的内部对话产生了兴趣,“批量收集”指的是获取完整的海量数据集。电话记录是几种记录中的一种。该机构已经变得越来越熟练,事实上,在寻找和吞噬别人的整个信息方面非常有创造力。最近,美国国家安全局开始发现它消耗了太多而无法消化。中层经理和工程师在为他们的指挥链准备的简报中发出了警报。一份报告的封面问道:“这是我们所了解的SIGINT世界的末日吗?”作者试图用一种欢快的语气,但没有确切的答案。监视基础设施在严重的压力下工作。
有一个名字引起了我的注意,上面有一张图表,上面列出了风险最高的系统:Mainway。我知道这个。2001年9月11日之后,美国国家安全局的工程师紧急匆忙修建了主干道。副总统迪克·切尼(Dick Cheney)的办公室起草了由乔治·W·布什(George W.Bush)总统签署的命令,要求做一些美国国家安全局以前从未做过的事情。这项被法律禁止的任务是追踪美国人在美国领土上拨打和接听的电话。由此产生的行动是我现在关注的更广泛行动的无法无天的先驱。
Mainway与切尼在基地组织驾驶客机撞向五角大楼和世贸中心后的第一个疯狂的几周内创建的国内监控项目Stellarwind并驾齐驱。STELLARWIND定义了操作;Mainway是执行操作的工具。
当时,美国国家安全局知道如何处理外国电话,但它没有在国内做到这一点的机制。
2001年10月4日,当美国国家安全局局长迈克·海登(Mike Hayden)收到执行“副总统特别计划”的命令时,国家安全局的工程师们在几天内就用裸机组装了一个系统,并借用了代码,这是一个在压力下取得的巨大成就。他们从戴尔那里征用了50台最先进的计算机服务器,戴尔即将将其发货给另一位客户,并将它们捆绑到一个快速、肮脏但功能强大的集群中。海登清理了OPS 2B特别受限的侧翼,这是马里兰州米德堡闪闪发光的镜面总部建筑群的内部圣殿。当集群扩大,容纳了大约200台机器时,Mainway泄漏到了附近托德拉超级计算机设施的一个附属设施中。10月6日和7日,值得信赖的副手开始召集一小群分析师、程序员和数学家。
在哥伦布日,10月8日,海登向他们简要介绍了他们在一次特别划分的新行动中的新工作。那一天,他把它叫做“星爆”。不久之后,星风密码取代了它。在同一个假期周末,海登派遣了特殊来源运营公司(Special Source Operations)的人员,就秘密从美国电话电报公司(AT&;T)和威瑞森(Verizon)等公司大量购买电话数据进行谈判。未来五年,价格将超过1.02亿美元。
对其他NSA人员来说,掩盖不了喧嚣是不可能的,他们看到新设备在武装护送下以狂暴的速度抵达,但即使是在最高级别的许可证持有者中,也几乎没有人知道发生了什么。STELLARWIND被指定为ECI,即“特殊控制的信息”,是所有机密中最严格的。切尼在他的西翼办公室下令向FISA法院的法官和国会情报委员会的成员隐瞒星风。
根据我的消息来源和我在2013年秋天查阅的文件,Mainway很快就成为了NSA绘制社交网络地图的最重要工具--该机构所称的“大访问剥削”(Large Access Developation)的支柱。在米德堡,“大”不是一个随意使用的形容词。主干道是为巨大规模的行动而建造的。其他系统解析截获的通信内容:语音、视频、电子邮件和聊天文本、附件、寻呼机消息等。Mainway是国内外元数据的女王,旨在找到内容没有揭示的模式。除此之外,Mainway是更雄心勃勃的计划的原型。他们的规划者写道,下一代系统可以通过“从更传统的收集什么的分析转向收集什么的分析”来放大监视的力量。从通话记录中收集的模式将识别电子邮件或位置数据库中的目标,反之亦然。元数据是美国国家安全局计划“识别、跟踪、存储、操纵和更新所有形式的截获内容的关系”的关键。一张以图形呈现的综合地图最终将允许美国国家安全局在全球范围内显示几乎任何人的行动和通讯。在他们的第一份使命声明中,规划者给这个项目起了一个不具讽刺意味的名字:“巨大的令人敬畏的图表”。不可避免地,它获得了一个轻快的首字母缩写--“袋子”。
在2012年绘制的一张大型网络图的右下角出现了关于此主题的关键发现。下面转载的那个角落里的一个小盒子终于回答了我的问题,即国安局把我和布莱尔谈到的电话记录藏在哪里。唱片放在主干道上。其影响令人震惊。
这张太大而无法完整显示的图表整体上追踪了AT&;T的“源自账单记录的元数据流”,因为他们沿着通往米德堡的迷宫般的中间停靠站蜿蜒前行。倒数第二站的邮购是一个电子交警,一个文件分类和转发系统。最终目的地是主干道。网络图中的“BRF分区”是根据Business Records FISA的订单命名的,其中十几个是在2009年签署的,将数千亿个电话的记录倾倒到了Mainway。
对于第一次阅读网络地图的人来说,Mainway的圆柱图标可能会让人联想到一个储藏箱。但事实并非如此。柱面是数据库的标准符号,数据库是在硬件上运行的分析服务。Mainway不是静态数据的容器。国安局有这些人的名字。它们被称为数据集市和数据仓库。如果该机构只是存储美国的电话记录,它会把它们留在一个名为Fascia II的系统中,这个系统是为Mainway提供数据的“呼叫详细记录仓库”。Mainway在其第一个财年制定的任务是“使美国国家安全局……。主宰全球通信基础设施,以及目前在其中匿名运作的目标。“。该系统完成这项任务的方式对美国人的隐私产生了巨大的影响。
由于很快就会变得明显的原因,我想在NSA的机密参考文件SSO字典中复制Mainway的词条:
(TS//SI//REL)Mainway,或Mainway预计算触点链接服务,是用于触点链接的分析工具。它使分析人员能够快速、轻松地导航不断增长的全球通信元数据,从而帮助他们发现目标。Mainway攻击分析全球通信网络的数据量问题。
在那篇短文中有三个值得注意的术语:体积问题、接触链和预计算。后两者结合在一起,颠覆了我对通话记录程序的理解。在我们讲到它们之前,请注意一下音量问题。
实际上,国安局有很多音量问题。太多的信息在全球网络中传播得太快。太多的东西无法摄取,太多的东西无法储存,太多的东西无法从遥远的收集点通过可用的管道取回。太多的噪音淹没了太少的信号。然而,在我刚才引用的段落中,音量问题指的是其他东西-监控机器内部更深层次的东西。这是美国国家安全局胃口无限紧张的结果。收集系统正在对超过它们所能消化的更多的数据闭上嘴巴。问题是处理,而不是储存。
长期以来,情报官员引用布什总统的一句话来解释通话记录数据库。“在我看来,如果有人与基地组织对话,我们想知道为什么,”他说。
事实上,这完全不是美国国家安全局使用通话记录的方式。该程序的目的是找出美国来电者是否与恐怖阴谋有联系,而不是为什么-为了做到这一点,它搜查了我们所有人。通过联邦调查局的合作,美国国家安全局收集了一份为期五年的电话清单,列出了它能接触到的每个账户的电话。数以万亿计的电话。找坏人电话账单上的号码根本不需要这样的东西。
这就是接触链的用武之地。这个短语被用来描述一种复杂的分析形式,它在非常大的数据集中寻找隐藏的间接关系。联系链从目标电话号码开始,比如波士顿爆炸案袭击者焦哈尔·萨纳耶夫(Dzhokhar Tsarnaev)的电话号码,然后逐渐扩大镜头,询问萨纳耶夫的联系人在与谁通话,那些人在与谁通话,等等。
软件工具将通话记录映射为网格上的“节点”和“边缘”,网格如此之大,以至于人类的大脑在没有辅助的情况下无法容纳它。节点是地图上的点,每个点代表一个电话号码。边是在节点之间绘制的线,每条线代表一个呼叫。一个名为MapReduce的相关工具将数万亿个数据点浓缩成人类分析师可以理解的摘要形式。
网络理论称这张地图为社交图。它对定义每个人与世界互动的关系和群体进行了建模。随着接触链的进展,图形的大小呈指数增长。整个链条的要点是从目标的直接触点向外推到触点的触点,然后是触点的触点的触点。该过程中的每一步都称为一跳。
每天翻倍一便士,不到一个月你就会达到100万美元。这就是指数增长在基数为2的情况下看起来的样子。随着联系人链一步一步地跳跃,社交图的增长速度要快得多。如果一个普通人每年给另外10个人打电话,那么每跳一次,NSA联系地图上的人口就会增加10倍。我们中的大多数人在电话中与10多个人交谈。无论这个数字是几十个还是几百个,你都可以将其自身相乘,以衡量每一跳的增长情况。
美国国家安全局前副局长约翰·C·英格利斯(John C.Inglis)在2013年向国会作证时表示,国家安全局的分析员在链接通话数据库时,通常会“跳两到三跳”。作为背景,数据科学家几十年前估计,追踪地球上任何两个人之间的路径只需要不超过六跳。他们的发现在约翰·瓜尔(John Guare)的戏剧“六度分离”(Six Degree Of Separation)中进入了流行文化(该剧后来被改编成了一部电影)。奥尔布赖特学院的三名学生将这部电影改编成室内游戏“凯文·培根的六度”。然后,这个游戏启发了一个名为培根先知的网站,该网站计算出从这位自由自在的明星到他的好莱坞同龄人的最短路径。在我写这篇文章的时候,这个网站还在运行,它是一个关于啤酒花和它们可以带你去哪里的有趣的指南。
培根与一长串演员分享银幕字幕。这些是他的直接链接,距离培根本人只有一跳。那些从未与他合作过,但在电影中与有过合作经历的人一起出演的演员,距离培根只有两步之遥。斯嘉丽·约翰逊从未与培根合作过,但他们都曾与米奇·鲁尔克合作过:“餐厅”中的培根,“钢铁侠2”中的约翰森。两人通过鲁尔克联系在一起。如果你继续玩下去,你会发现培根与任何演员的距离很少超过两个跳跃,无论在时间和电影风格上是多么遥远。在好莱坞这样一个单一行业的小镇,这样的联系可能会有直观的意义。更令人惊讶的是,如果你没有花太多时间在对数上,那么在NSA大得多的数据集上旅行一到两跳的距离就更令人惊讶了。学术研究表明,平均三跳-与Inglis提到的数字相同-可以追踪任何两个美国人之间的路径。
即使对Mainway来说,在相当于整个国家的电话记录的范围内建立联系人链也是一项巨大的计算任务。它要求绘制像恒星场一样密集的呼叫点和簇,每个呼叫点和簇都通过错综复杂的线网联系在一起。Mainway的分析引擎追踪地图上隐藏的路径,寻找人类分析师无法发现的关系。Mainway不得不在时间压力下,每当其运营商要求新的联络链时,按需制作地图。没有人能预测下一任萨纳耶夫的名字或电话号码。从数据科学家的角度来看,合乎逻辑的补救办法是显而易见的。如果有人可能成为情报目标,主路公司应该设法抢占先机。
美国国家安全局前副局长里克·莱吉特(Rick Ledgett)多年后告诉我:“你必须建立所有这些关系,给它们贴上标签,这样当你启动查询时,你才能迅速获得它们。”“否则,你要花大约一个月的时间来扫描一张庞大的电话费账单。”这就是预计算的用武之地。Mainway通过其数据库连续链接--根据分类项目摘要,“7x24小时运行”。在最基本的层面上,你可能会将它的工作比作一本书的索引-尽管这本书有数亿个主题(电话号码)和数万亿个条目(电话)。这种比较的一个缺陷是,它听起来像是一项最终会完成的工作。梅因韦的工作从未结束。它试图为一本正在进行中的书编制索引,这本书永远不完整。联邦调查局每天从电话公司给美国国家安全局带来超过10亿份新记录。Mainway不得不每天再清洗10亿美元,以遵守FISA法院对留任的五年限制。每一次变化都在社交图中层层展开,重新绘制了地图,并迫使Mainway不断更新。
换句话说,Mainway的目的既不是存储,也不是准备一个简单的列表。持续、复杂且要求苛刻的操作为另一个名为Graph-in-Memory的数据库提供了支持。
当2013年4月波士顿马拉松炸弹爆炸时,记忆中的图表已经准备好了。在没有不幸的数据缺口的情况下,它已经掌握了萨纳耶夫兄弟电话显示的联系人的汇总地图。基本详细信息-日期、时间、持续时间、忙碌信号、未接来电和“呼叫等待事件”-可按需轻松检索。梅因韦已经处理过了。由于有了第一跳的预计算,内存中的图可以使第二跳和第三跳的工作速度更快。
为了随时准备萨纳耶夫的图表,梅因韦还必须为其他所有人预先计算一个图表。如果Mainway有你的电话记录,它还会提供你的商业和个人生活的粗略和现成的图表。
2013年秋天,当我分析这些文件并采访消息来源时,我终于意识到了其中的含义。美国国家安全局已经建立了一个实时的、不断更新的美国社交图。
我们的电话记录没有冷藏。他们不是坐着不动的。他们被安排在一跳的联系链中,每个人对所有人都有联系。各种秘密--社会、医疗、政治、职业--都是全天候预先计算出来的。莱吉特告诉我,他看不出有什么好担心的,因为“在你发起查询之前,链接都是拆开的。”我看到了一个预先配置好的数据库,只需轻触按钮就能绘制出任何人的生活地图。
我很清楚,一个人可能会把这种思路做得太过火了。也许我有过。美国不是东德。当我将这张照片拼凑在一起时,我没有理由相信美国国家安全局腐败地使用了它的实时美国生活地图。这些规定对美国电话记录的使用施加了一些限制,即使在布什的声明之后也是如此。
..