科学家利用大数据影响选举并预测20世纪60年代的骚乱

2020-09-17 07:32:23

对历史的无知在硅谷是一种荣誉勋章。“唯一重要的是未来,”自动驾驶汽车工程师安东尼·莱万多夫斯基(Anthony Levandowski)在2018年告诉“纽约客”(The New York Ker)1。

莱万多夫斯基曾供职于谷歌、优步和谷歌的自动驾驶汽车子公司Waymo(最近因窃取商业机密而被判18个月监禁),他也不是局外人。“颠覆性创新”的信条依赖于对历史2的否定。“快速行动,突破一切”是Facebook的座右铭。永远不要回头。对此的另一种说法是粗心大意。这里还有几个:疏忽、愚蠢和盲目。

许多被技术领袖吹捧为原创的东西在很久以前就已经做过了。然而,很少有工程师和开发人员意识到他们停滞不前。这种缺乏意识是有代价的,既有经济上的,也有伦理上的。

想想1959年在纽约市成立的Simulmatics公司的奇怪轨迹。(Simulmatics是“模拟”和“自动”的混合词,当时的意思是“人工智能(AI)”,现在的意思是“人工智能”。)。其备受争议的工作包括模拟选举-就像据称由现已倒闭的英国公司剑桥分析(Cambridge Analytica)在2015年代表英国脱欧运动人士以及唐纳德·特朗普(Donald Trump)2016年美国总统竞选期间“首创”的那样。

记者指责特朗普的中间人使用的是一台“武器化的人工智能宣传机器”,能够“几乎无法穿透选民的操纵”。新的?。一点也不。Simulmatics在1959年发明了这一点。他们称它为“人类机器”。

作为一名对政治、法律和技术感兴趣的美国历史学家,五年前,当我在研究一篇关于民调行业的文章时,偶然看到了Simulmatics公司的故事。民调当时是混乱的,现在仍然是如此。现在,它正在被数据科学所取代:既然你可以通过在线跟踪别人来了解情况,为什么还要费心打电话询问她的意见呢?

想知道这是从哪里开始的,我来到了剑桥的麻省理工学院(MIT),看到了政治学家伊蒂尔·德·索拉·普尔(Ithiel De Sola Pool)未发表的论文。他帮助建立了模拟学公司,并领导了冷战时期将行为科学引入国防工业、竞选和商业的运动。这个故事给我的印象是,对于围绕数据科学的现代伦理困境来说,从错误信息和选举干预到媒体操纵和预测性监管,这个故事是如此重要,以至于我写了一本关于它的书:如果那样的话:模拟学公司如何发明了未来(2020)。

Simulmatics于1959年首次受雇于美国民主党全国委员会,随后于1960年受雇于约翰·F·肯尼迪竞选团队,开创了在美国政治竞选中使用计算机模拟、模式检测和预测的先河。该公司从民意测验专家乔治·盖洛普(George Gallup)和埃尔莫·罗珀(Elmo Roper)的档案中收集民意调查数据,以创建美国选民的模型。

他们将选民分为480种-比如,1952年投票给民主党总统候选人阿德莱·史蒂文森(Adlai Stevenson)的民主党女性蓝领中西部人,但1956年投票给共和党人德怀特·D·艾森豪威尔(Dwight D.Eisenhower)。他们将关注的问题,如民权的重要性或强烈反对苏联的立场,归入60个类别。在当时,这是有史以来进行的最大的此类项目。它涉及到Simulmatics所说的“海量数据”,在“大数据”成为流行语之前的几十年。

Simulmatics的工作人员都是杰出的科学家。在Pool的领导下,该小组包括来自麻省理工学院、康涅狄格州纽黑文的耶鲁大学、马里兰州巴尔的摩的约翰·霍普金斯大学和纽约市的哥伦比亚大学的研究人员。其中还包括IBM的亚历克斯·伯恩斯坦(Alex Bernstein),他编写了第一个国际象棋计算机程序。他们中的许多人,包括普尔,都曾接受耶鲁大学政治学家哈罗德·拉斯韦尔(Harold Lasswell)的培训,他的传播学研究旨在解释思想是如何进入人们头脑的:简而言之,谁说了什么,在哪个渠道,对谁说了什么,产生了什么效果?在第二次世界大战期间,拉斯韦尔研究了纳粹对宣传和心理战的使用。当这些术语在战争结束后变得令人不快时,这个领域有了一个新的名字-大众传播研究。同样的酒,新瓶子。

就像硅谷本身一样,Simulmatics也是冷战的产物。正如历史学家珍妮·安德森(Jenny Andersson)在她2018年出版的精彩著作“世界的未来”(The Future Of The World)中所展示的那样,这是一个痴迷于预测的时代。在麻省理工学院,普尔还提出并领导了由美国国防部高级研究计划局(ARPA)资助的ComCom项目(共产主义通信的简称)。用现代术语来说,它的目的是试图检测俄罗斯的黑客行为--正如普尔所描述的那样,“了解泄密、谣言和故意披露的信息是如何传播的”。

媒体称模拟学科学家为“假设人”,因为他们的工作--给IBM704编程--是建立在无休止的假设模拟的基础上的。IBM704被标榜为第一台能够进行复杂数学运算的大规模生产的计算机。今天,这类工作备受吹捧,资金充裕。2018年的《数据库系统百科全书》(The Encyclopedia Of Database Systems)将《假设分析》(What-if Analysis)描述为“数据密集型模拟”。它将其称为“一门相对较新的学科”。但事实并非如此。

约翰·F·肯尼迪在1960年的美国总统选举中以49.7%的票数赢得了自19世纪80年代以来最接近的普选,而理查德·尼克松的得票率为49.5%。在肯尼迪就职之前,当“哈珀”杂志刊登了一个令人震惊的故事时,一场风暴爆发了:一台由神秘的假设人类发明的名为“人民机器”的绝密计算机实际上选举了肯尼迪。拉斯韦尔称其为“社会科学的原子弹”。

肯尼迪在整个夏天的民调中一直落后于尼克松。他在秋季击败尼克松有三个原因:肯尼迪拥护民权,增加了他在非裔美国人选票中的份额;作为天主教徒,他在宗教自由问题上采取了强硬立场;他在四场电视辩论中的表现超过了尼克松。Simulmatics推荐了这些策略中的每一种。

一阵骚动爆发了。“纽约先驱论坛报”称人民机器是肯尼迪的“秘密武器”。“芝加哥太阳时报”想知道,未来的政治家是否必须“向下午三点钟澄清”。俄勒冈州的一家报纸认为,Simulmatics将选民降格为“穿孔卡片上的小洞”,通过否认存在异议的可能性,“人民机器”使“希特勒、斯大林及其祖先的暴政看起来就像一个乡村恶霸的笨拙摸索”。

更糟糕的是,肯尼迪曾发起反对自动化的运动。1960年9月,他在密苏里州的圣路易斯发表演讲,警告“机器将取代人”。肯尼迪竞选宣传手册上写道:“如果自动化取代了你的工作,…。你想让谁入主白宫?“。报纸编辑和评论员指责他虚伪。

随之而来的辩论提出了今天仍在提出的问题--非常紧迫。计算机能操纵选举吗?选举预测对民主意味着什么?自动化对人类意味着什么?在一个数据时代,隐私会发生什么?当时没有答案,就像现在一样。拉斯韦尔只是承认:“你不能模拟模拟的后果。”

最有先见之明的批评来自拉斯韦尔的另一位前合作者尤金·伯迪克(Eugene Burdick)。他的反乌托邦小说“480”出版于1964年,描述了一个几乎没有虚构的叫做“模拟企业”的组织。加州大学伯克利分校(University of California,Berkeley)政治学家、畅销书小说家伯迪克(Burdick)在一篇冷静的序言中警告要警惕现在所说的数据科学的政治影响。伯迪克因与人合著了1958年的《丑陋的美国人》(The丑陋American)而闻名。

他写道:“新的黑社会是由无辜和善意的人组成的。”他们中的大多数人“受过高等教育,许多人拥有博士学位”。他们“使用计算尺、计算器和计算机,这些机器和计算机可以保存几乎无限大的信息,并且只需按一下按钮就可以对这些信息进行分类、分类和复制”。

伯迪克警告说,尽管他遇到的研究人员中没有一个“对美国公众有恶意的政治图谋”,但他们对思考他们的工作可能产生的后果缺乏兴趣,这是一个可怕的危险。事实上,他们可能会“从根本上重建美国的政治体系,建立一个新的政治,甚至修改受人尊敬和受人尊敬的美国机构-这些事实他们是幸福的无辜的”。

伯迪克认识这些研究人员,他和普尔以及拉斯韦尔一起工作过。他窥探了他们的野心,在他们沉迷于计算机能力的过程中,那种睁大眼睛的粗心大意仍然是硅谷的阿喀琉斯之踵。

受到肯尼迪当选的热议,Simulmatics开始了一场广告闪电战。该公司1961年的首次公开募股(IPO)阐述了该公司将如何将预测转化为利润-通过收集大量数据,构建行为过程的数学模型,并用它们来模拟“可能的群体行为”。

该公司向媒体公司、政府部门和广告公司推销其服务,取得了好坏参半的结果。它说服了美国电影协会(Motion Picture Association Of America)、米高梅(MGM)电影制片厂和哥伦比亚唱片公司(Columbia Records)的高管建立分析形式,最终在有可能收集到足够的数据来实现这一点时,导致Netflix和Spotify的出现。它提出了一种“大众文化模式”,收集所有媒体(出版社、唱片公司、杂志出版商、电视网和电影制片厂)的消费者数据,以指导广告和销售。这听起来很像亚马逊。

Simulmatics将假设模拟引入广告业,以定制适合的信息瞄准消费者。1962年,它成为第一家向美国报纸“纽约时报”提供实时计算以分析选举结果的数据公司。对于政府来说,它提出了一些模式来帮助越南的公共卫生运动、供水系统,最重要的是,赢得了越南的民心。

1963年,代表肯尼迪政府,Simulmatics模拟了委内瑞拉的整个经济,着眼于阻止社会主义和共产主义的发展。在整个拉丁美洲进行这类工作的一个更大的项目,主要由Pool设计,被称为卡米洛特项目(Project Camelot),它变得如此有争议,以至于下一任总统林登·B·约翰逊(Lyndon B.Johnson)拆除了它。

1965年后,Simulmatics在越南进行了心理学研究,作为使用计算机预测革命的更大项目的一部分。这些工作大部分建立在拉斯韦尔和普尔早期研究的基础上,识别并统计了外语报纸中可能预示政变可能性的关键字,如“民族主义”。这样的话题定位是谷歌趋势的前奏。

Simulmatics在1967年和1968年将这些反叛乱方法带回了国内,当时加州洛杉矶和密歇根州底特律等美国城市的街头爆发了反对种族不公正的抗议活动。该公司试图为约翰逊政府建造一台种族骚乱预测机器。它失败了。但它狂妄的野心-预测政治动荡的动力-得到了广泛的认同,并得到了坚持,尤其是在道德上站不住脚的预测警察工作中。

当时的民权活动家和现在一样,对这样的计划几乎没有什么用处。1965年4月,种族平等大会主席詹姆斯·法默(James Farmer)在哥伦比亚广播公司(CBS)电视台的“面对全国”(Face The Nation)节目中表示:“我不会预测会发生骚乱。”“没有人有足够的知识知道这一点。”他指出,真正的问题是没有人解决导致动乱的问题。1967年6月,马丁·路德·金(Martin Luther King Jr)在俄亥俄州克利夫兰对媒体表示:“我不会预测这里会发生骚乱。”

但是,计算机辅助骚乱预测的幻想依然存在,就像21世纪的梦想一样,人们广泛而热情地认为,所有的城市问题都可以通过“智能城市”来解决,内乱、种族不平等和警察暴行可以通过更多的摄像机、更多的数据、更大的计算机和更多的假设算法来解决。

模拟学从1969年开始解体。麻省理工学院的学生抗议者指责该公司在越南的工作犯有战争罪。他们甚至对普尔进行了模拟审判,称他为战犯。“新共和报”报道说:“模拟学看起来只不过是一个虚拟公司,普尔通过它来管理他的外部防御工作。”“仿真公司不像以前那么受欢迎了;它们的东家经常被视为邪教分子,肯尼迪和约翰逊早期政府中被自由派说服雇佣它们的将军们对整个业务都很不满.”

早期预测分析也存在问题。数据稀缺,电脑速度很慢。Simulmatics在1970年申请破产,然后消失了。

普尔后来成为技术变革的先驱。“到2018年,在电脑银行存储信息将比在纸上存储信息更便宜,”他在1968年为一本名为“迈向2018年4”的书撰稿时写道。纳税申报单、社保和犯罪记录都将存储在电脑上,这些电脑可以通过一个巨大的国际网络相互通信。

他写道,生活在2018年的人将能够找到任何关于任何人的任何事情,而不需要离开办公桌。“坐在控制台前的研究人员将能够(从商店记录)编制一份消费者购买情况的交叉表,这些人是智商低的人(从学校记录),他们的家庭成员是失业的(从社保记录)。”

他有法律权利这样做吗?普尔没有回答:“这不是推测社会将如何在对知识的渴望和对隐私的渴望之间取得平衡的地方。”

在他1984年早逝之前,Pool也是创建Simulmatics最直接的后代麻省理工学院媒体实验室(MIT Media Lab)的关键力量。普尔的工作是互联网上盛行的规则(或者说缺乏规则)的基础。普尔还创立了对“社交网络”(他创造的一个术语)的研究;没有它,就不会有Facebook。普尔在麻省理工学院学生骚乱中的经历,特别是在反对Simulmatics的抗议活动中的经历,影响了他对技术变革和伦理的看法。向前看。永远不要回头。

1966年,普尔将社会科学描述为“20世纪的新人文科学”5。他认为,尽管过去的领导人曾参考哲学、文学和历史,但冷战时代的领导人有义务咨询社会科学。在“以道德为本的政策和以社会科学为基础的政策”之间,他很高兴地报告,美国在越南战争中拒绝了前者,转而支持理性。

对我来说,这听起来很像莱万多夫斯基。“我甚至不知道我们为什么要学习历史,”莱万多夫斯基在2018年1说。“我想这很有趣--恐龙、尼安德特人、工业革命等等。但已经发生的事情其实并不重要。“。不过,这很重要。试图通过预测算法来挫败叛乱和击败社会动荡的尝试以前也曾尝试过;它失败了,在伦理上是站不住脚的。

今年夏天,在“黑人生命也是命”(Black Lives Matter)运动的压力下,美国警察部门放弃了预测警务,这是一个由加州圣克鲁斯的数据分析公司PredPol领导的行业。至少在公开场合,IBM和谷歌已经退出了另一种形式的算法驱动的监控,面部识别。如果开发它们的人停下来思考它们起源于越南战争,或许这些弯路是可以避免的。

同样值得记住的是,当时的抗议者理解这种联系。1969年,反对Simulmatics等公司的麻省理工学院积极分子问道,在一个权力不平等令人痛苦的世界里,让人类行为成为一门预测性科学到底有什么意义。这一切都是为了什么?它可能会如何使用呢?

正如一名学生抗议者在一本反战小册子中所问的那样:“做什么?要做一些事情,比如估计阻止X市犹太人区叛乱所需的防暴警察人数,因为事件Y可能会因为通讯模式K而触发,给定Q个Z型政治煽动者的数量?“