批评人士争辩说,由于有偏见的训练数据,预测性警务算法需要被拆除,尽管倡导者说算法可以变得公平

2020-07-19 13:56:34

Yeshimabeit Milner在高中时第一次看到她认识的孩子被戴上手铐塞进警车。那是2008年2月29日,迈阿密附近一所学校的校长,那里的海地人和非洲裔美国人占多数,他把他的一个学生掐死了。第二天,几十个孩子举行了和平示威。事情进行得不太顺利。

当晚,迈阿密全国广播公司6点新闻节目以一段名为“校园混乱”的节目开播。(YouTube上有一段视频片段。)。广播说:“在争取权利的斗争以与法律的斗争结束后,爱迪生高中的紧张局势变得高度紧张。”切换到两名尖叫的青少年的模糊电话画面:“你看到的混乱是学校食堂内的一场全面斗殴。”

学生们告诉记者,警察用警棍打他们,把他们扔在地板上,把他们推到墙上。警方声称他们就是被袭击的人-“有很多水瓶,汽水,牛奶等”-并呼吁紧急支援。大约25名学生被捕,许多人被指控犯有多项罪行,包括暴力拒捕。米尔纳记得在电视上看到她上小学时被拘留的孩子。“这太疯狂了,”她说。

对米尔纳来说,当天发生的事件及其对被捕者的长期影响至关重要。不久之后,当她还在上学的时候,她就参与了基于数据的激进主义活动,记录了同学们在种族主义警察方面的经历。现在,她是她在2017年与人共同创立的草根数字权利组织Black Lives的数据主管。她十几岁时学到的东西把她推入了与刑事司法系统中的偏见作斗争的生活中,并拆除了她所说的从学校到监狱的管道。“数据被武器化来对付黑人社区的历史由来已久,”她说。

不平等和滥用警权不仅仅是在街上上演,也不仅仅是在学校骚乱期间上演。对于米尔纳和其他活动人士来说,现在的重点是最有可能造成长期损害的地方:预测性警务工具和警察部队滥用数据。许多研究表明,这些工具延续了系统性种族主义,但我们仍然对它们是如何工作的、谁在使用它们以及用于什么目的知之甚少。所有这些都需要改变,然后才能进行适当的清算。幸运的是,潮流可能正在逆转。

预测警务工具主要有两种类型。基于位置的算法利用地点、事件和历史犯罪率之间的联系来预测犯罪更有可能发生的地点和时间-例如,在特定的天气条件下或大型体育赛事中。这些工具识别热点,警方计划在这些线报周围巡逻。其中最常见的一种名为PredPol,被美国数十个城市使用,将地点划分为500乘500英尺的街区,并全天更新预测-一种犯罪天气预报。

其他工具利用人们的数据,如他们的年龄、性别、婚姻状况、药物滥用史和犯罪记录,来预测谁有很高的机会参与未来的犯罪活动。这些以人为本的工具既可以被警方用来在犯罪发生前进行干预,也可以被法院用来在审前听证会或量刑期间确定被逮捕的人是否有可能再次犯罪。例如,许多司法管辖区都在使用一种名为“COMPAS”的工具来帮助做出有关审前释放和量刑的决定,该工具会发布一个介于1到10之间的统计分数,以量化一个人如果获释被重新逮捕的可能性有多大。

问题出在算法所依赖的数据上。首先,预测性算法很容易受到逮捕率的影响。根据美国司法部的数据,如果你是黑人,被捕的可能性是白人的两倍多。黑人在没有正当理由的情况下被拦截的可能性是白人的五倍。爱迪生高中的大规模逮捕事件只是警方做出不成比例反应的一个例子,这种反应在黑人社区并不少见。

米尔纳眼看着被逮捕的孩子们因为那次逮捕记录而被设定为终身有偏见的评估。但那一天受到影响的不仅仅是他们自己的生活。他们被捕产生的数据将被输入到算法中,这些算法评估的算法将不成比例地针对所有年轻的黑人。虽然根据法律,算法不使用种族作为预测因子,但其他变量,如社会经济背景、教育程度和邮政编码,可以作为预测因子。即使没有明确考虑种族问题,这些工具也是种族主义的。

这就是为什么,对许多人来说,预测性警务本身的概念本身就是问题所在。作家兼学者多萝西·罗伯茨(Dorothy Roberts)在宾夕法尼亚大学(University Of Pennsylvania)研究法律和社会权利,她在6月份的一次公开在线小组讨论中很好地表达了这一点。她说:“种族主义一直都是关于预测,关于让某些种族群体看起来似乎倾向于做坏事,从而证明控制他们是正当的。”

几十年来,风险评估一直是刑事司法系统的一部分。但在过去的几年里,警察部门和法院更多地使用了自动化工具,主要有两个原因。首先,预算削减导致了一场提高效率的运动。“人们打电话要求撤资警察,但他们已经被撤资了,”米尔纳说。“多年来,城市一直在破产,他们一直在用算法取代警察。”确切的数字很难得到,但美国大多数州的警察或法院都被认为使用了预测工具。

增加使用算法的第二个原因是人们普遍认为它们比人类更客观:它们最初被引入是为了让刑事司法系统的决策更加公平。从20世纪90年代开始,早期的自动化技术使用基于规则的决策树,但今天的预测是通过机器学习完成的。

然而,越来越多的证据表明,这些工具中已经融入了人类的偏见,因为机器学习模型是基于有偏见的警察数据进行训练的。他们非但没有避免种族主义,反而可能更善于隐藏种族主义。许多批评人士现在将这些工具视为一种技术清洗形式,其中客观性的表象掩盖了使社会不平等永久化的机制。

“人们对这些工具的看法实际上只是在过去几年里才发生转变,从可能缓解偏见的东西,转变为可能巩固偏见的东西,”律师兼数据科学家艾丽丝·向表示。她在人工智能伙伴关系(Partnership On AI)领导对公平、透明和问责的研究。自从二三十年前第一代预测工具出现以来,这些偏见就变得更加严重。科罗拉多博尔德大学(University Of Colorado Boulder)研究算法偏差的研究员凯蒂·韦辛顿(Katy Weathington)表示:“我们一开始就采用了糟糕的数据,然后我们使用工具让情况变得更糟。”“这只是一个自我强化的循环,一遍又一遍。”

情况可能会变得更糟。*在明尼阿波利斯乔治·弗洛伊德(George Floyd)死于一名警察之手后,针对警察偏见的大规模抗议活动之后,一些警察部门正在加倍使用预测工具。一个月前,纽约警察局局长德莫特·谢伊(Dermot Shea)给他的警官们发了一封信。“在目前的环境下,我们必须以不同的方式打击犯罪,”他写道。“我们将以更少的街头停留来做到这一点--也许会让你承担更少的危险和责任--同时更好地利用数据、情报和我们掌握的所有技术……。这意味着对于纽约警察局来说,我们将加倍努力进行精准警务。“。

AI Now研究所政策研究主任拉希达·理查森(Rashida Richardson)表示,警方喜欢让他们提前知道并允许他们及早干预的工具的想法,因为他们认为这会降低犯罪率。但在实践中,使用它们可能会感觉到骚扰。研究人员发现,一些警察部门会给警官列出该工具认定为高风险的“头号通缉”人员名单。当芝加哥的人们报告说警察一直在敲他们的门,告诉他们他们受到监视时,这件事第一次被曝光。理查森说,在其他州,警方警告名单上的人,他们参与帮派犯罪的风险很高,并要求他们采取行动避免这种情况。如果他们后来因任何类型的犯罪而被捕,检察官会利用之前的警告寻求更高的指控。“这几乎就像是一种数字形式的诱捕,你给人们一些模糊的信息,然后拿来对付他们,”她说。

同样,研究-包括英国政府数据道德与创新中心(Centre For Data道德And Innovation)去年委托进行的一项研究-表明,将某些地区确定为热点地区,会让警察在巡逻时预计会遇到麻烦,使他们更有可能出于偏见(而不是需要)在那里拦截或逮捕人。

算法的另一个问题是,许多算法都是针对美国以外的白人人口进行培训的,部分原因是很难跨美国不同的司法管辖区获得犯罪记录。Static 99是一种用于预测性犯罪者累犯率的工具,它在加拿大接受了培训,加拿大只有大约3%的人口是黑人,而美国的这一比例为12%。美国使用的其他几种工具也是在欧洲开发的,欧洲有2%的人口是黑人。由于国家和人口之间的社会经济条件不同,这些工具在没有经过培训的地方可能不太准确。此外,一些多年前训练的预审算法仍然使用过时的预报器。例如,一些人仍然预测,没有固定电话的被告出现在法庭上的可能性较小。

但是,这些工具即使不完美,也能发挥作用吗?这取决于你所说的“工作”是什么意思。一般来说,几乎不可能将预测性警务工具的使用与影响犯罪率或监禁率的其他因素分开。尽管如此,少数小型研究得出的结论有限。一些迹象表明,法院使用风险评估工具产生了轻微的积极影响。2016年,一项对宾夕法尼亚州用于为假释决定提供信息的机器学习工具的研究发现,没有证据表明它危及公共安全(也就是说,它正确地识别了不应该假释的高危个人),以及一些证据表明,它识别了可以安全释放的非暴力人群。

2018年的另一项研究研究了肯塔基州法院使用的一种工具,发现尽管各县之间对风险分数的解释不一致,导致了谁被释放和没有被释放的差异,但如果使用得当,该工具本可以略微降低监禁率。美国公民自由联盟(American Civil Liberties Union)报告称,作为2017年新泽西州刑事司法改革法案的一部分采用的一项评估工具导致等待审判期间被监禁的人数下降了约20%。

这类工具的倡导者说,算法可以比人类决策者更公平,或者至少让不公平变得明显。在许多案件中,特别是在审前保释听证会上,法官预计将在短时间内匆忙处理数十起案件。在伊利诺伊州库克县的一项关于审前听证会的研究中,研究人员发现,法官平均只花了30秒来考虑每个案件。

在这种情况下,我们有理由认为法官做出仓促决定至少在一定程度上是出于个人偏见。英国萨里大学(University Of Surrey)教授梅丽莎·汉密尔顿(Melissa Hamilton)研究围绕风险评估工具的法律问题,她对这些工具在实践中的使用持批评态度,但相信原则上他们可以比人做得更好。“另一种选择是人类决策者的黑匣子大脑,”她说。

但有一个明显的问题。用于训练预测工具的逮捕数据不能准确描述犯罪活动。之所以使用逮捕数据,是因为它是警察部门记录的。但逮捕并不一定会导致定罪。向说:“我们试图衡量犯罪人数,但我们掌握的只是逮捕人数的数据。”

更重要的是,逮捕数据编码了种族主义警察行为的模式。因此,他们更有可能预测少数族裔社区或少数族裔中的犯罪可能性很高。即使当逮捕和犯罪数据匹配时,也有无数的社会经济原因,为什么某些人口和某些社区的历史犯罪率比其他人更高。将这些数据输入预测工具可以让过去塑造未来。

一些工具还使用关于在哪里报警的数据,这比逮捕数据对实际犯罪模式的反映更弱,而且更受种族主义动机的扭曲。想一想艾米·库珀(Amy Cooper)的案例,她报警只是因为一位黑色观鸟者克里斯蒂安·库珀(Christian Cooper)要求她在纽约中央公园用皮带拴住她的狗。

理查森说:“仅仅因为接到电话说有犯罪发生,并不意味着犯罪真的发生了。”“如果这个电话变成了一个数据点,用来证明向特定社区派遣警察是合理的,甚至是针对一个特定的个人,那么你就会得到一个反馈回路,在这个回路中,数据驱动的技术使歧视性警务合法化。”

随着越来越多的批评者认为这些工具不符合目的,有人呼吁采取一种算法平权行动,在这种行动中,数据中的偏见以某种方式得到平衡。从理论上讲,风险评估算法的一种方法是使用不同的风险阈值-黑人逮捕三次可能表明风险水平与白人逮捕两次相同。

这是加州大学伯克利分校(University of California,Berkeley)研究公共政策的詹妮弗·斯基姆(Jennifer Skeem)和华盛顿特区美国法院行政办公室(Administration Office Of The US Courts)社会科学分析师克里斯托弗·洛文坎普(Christopher Lowenkamp)在5月份发表的一项研究中研究的方法之一。两人研究了三种不同的选择,以消除算法中的偏见,这些算法评估了大约6.8万名参与者(一半是白人,一半是黑人)的累犯风险。他们发现,当算法明确考虑种族因素-现有的工具在法律上被禁止这样做-并为黑人设定比白人更高的被认为高风险的门槛时,种族之间的最佳平衡就实现了。

当然,这个想法颇具争议性。这本质上意味着操纵数据,以原谅一定比例的犯罪,因为犯罪者的种族,向说:“这是一件让人非常不舒服的事情。”让不同群体的成员遵循不同标准的想法违背了许多人的公平感,即使这样做的方式应该是为了解决历史上的不公正。(您可以在我们关于刑事法律系统中的算法偏见的第一个互动故事中亲自尝试这种权衡,它允许您试验简化版本的COMPAS工具。)。

无论如何,美国法律系统还没有准备好进行这样的讨论。汉密尔顿说:“在这些风险评估工具上,法律界已经落后了很多。”在过去的几年里,她一直在为律师提供培训课程,并发现辩护律师经常甚至没有意识到他们的客户正以这种方式接受评估。“如果你没有意识到这一点,你就不会去挑战它,”她说。

缺乏意识可以归咎于整体情况的模糊性:执法部门对如何使用这些技术守口如瓶,以至于任何人都很难评估它们的工作情况。即使有信息可用,也很难将任何一个系统与任何一个结果联系起来。少数已完成的详细研究集中在具体的工具上,并得出可能不适用于其他系统或司法管辖区的结论。

甚至还不清楚正在使用什么工具,以及谁在使用这些工具。理查森说:“我们不知道有多少警察部门已经或正在使用预测性警力。”

例如,新奥尔良警方使用秘密数据挖掘公司Palantir开发的预测工具的事实是在Verge进行全面调查后才曝光的。公共记录显示,纽约警察局已经向Palantir支付了250万美元,但没有说明原因。

大多数工具都是由小公司、国家当局和研究人员杂乱无章地授权给警察部门的。有些是专有系统,有些不是,它们的工作方式略有不同。在工具输出的基础上,研究人员尽其所能地重新创造他们认为正在发生的事情。

活动人士哈米德·汗(Hamid Khan)多年来一直在争取洛杉矶警方放弃一种名为PredPol的预测工具,他要求警察局的监察长对该工具进行审计。*据哈米德·汗称,监察长在2019年3月表示,这项任务是不可能的,因为该工具太复杂了。

在英国,汉密尔顿试图研究一种名为OASYS的工具,它和COMPAS一样,通常用于审前听证会、量刑和假释。汉密尔顿说,制造OASYS的公司自己做审计,没有公布太多关于它是如何运作的信息。她曾多次试图从开发商那里获得信息,但他们没有回应她的请求。她说,“我想他们查阅了我的研究报告,然后决定:没有。”

制造这些工具的公司熟悉的一种说法是,他们不能分享信息,因为这将泄露这些工具评估过的人的商业机密或机密信息。

所有这一切都意味着,尽管有一些关于其中几个的信息可用,但只有少数人被详细研究过。Static 99是由一群数据科学家开发的,他们分享了有关其算法的细节。汉密尔顿表示,公共安全评估是美国最常见的审前风险评估工具之一,最初是由私人组织阿诺德风险投资公司(Arnold Ventures)开发的,但事实证明,如果披露了一些有关其工作原理的细节,就更容易说服司法机构采用它。尽管如此,这两个工具的制造商都拒绝公布他们用于培训的数据集,这些数据集是完全理解它们的工作原理所必需的。

不仅对这些工具的内部机制缺乏洞察力,批评人士还表示,警察部门和法院在确保他们购买功能符合预期的工具方面做得不够。米尔纳说,对于纽约警察局来说,购买风险评估工具与购买扫雪机遵守相同的规定。

理查森说:“警察可以全速购买技术,而不需要知道他们使用的是什么,也不需要投入时间来确保安全使用。”“然后就没有正在进行的审计或分析来确定它是否起作用了。”

改变这种状况的努力面临阻力。上个月,纽约市通过了美国公众监督监控技术(POST)法案,该法案要求纽约警察局列出所有监控技术,并描述它们对该市居民的影响。纽约警察局是美国最大的警察部队,该法案的支持者希望这一披露也能让人们了解美国其他警察部门正在使用什么技术。但走到这一步很难。理查森为该法案做了宣传工作,自2017年以来一直眼睁睁地看着该法案陷入困境,直到过去几个月要求警务改革的广泛呼声打破了意见平衡。

正是试图找到有关纽约数字警务实践的基本信息的挫折感导致理查森在b。

.