Facebook的“红色团队”黑掉了自己的人工智能程序

2020-07-28 00:49:25

Instagram鼓励其大约10亿用户为他们的照片添加滤镜,以使它们更容易分享。2019年2月,一些Instagram用户开始编辑他们的照片,目的是为了不同的受众:Facebook的自动色情过滤器。

Facebook严重依赖人工智能驱动的适度,该公司表示,这项技术特别擅长发现露骨的内容。但一些用户发现,他们可以通过在违反规则的皮肤显示上叠加网格或圆点等图案来偷偷通过Instagram的过滤器。这意味着Facebook的人类内容审查员需要做更多的工作。

Facebook的人工智能工程师的回应是训练他们的系统识别具有这种模式的被禁图片,但修复是短暂的。在Facebook领导计算机视觉工作的马诺哈尔·帕鲁里(Manohar Paluri)说,用户“开始适应不同的模式”。他的团队最终通过添加另一个机器学习系统来驯服人工智能规避裸体的问题,该系统可以检查照片上的网格等图案,并试图通过模仿附近的像素来编辑它们。这一过程不能完美地重现原作,但它允许色情分类器在不出错的情况下完成工作。

那次猫捉老鼠的事件帮助促使Facebook在几个月后成立了一个“AI红色团队”,以更好地了解其AI系统的漏洞和盲点。包括微软和政府承包商在内的其他大公司和组织也在组建类似的团队。

近年来,这些公司投入巨资部署人工智能系统,用于理解图像或文本的内容等任务。现在,一些早期采用者正在询问如何才能愚弄这些系统,以及如何保护它们。“我们从‘嗯?这东西有用吗?Facebook的首席技术官迈克·施罗普费尔说:“到目前为止,它对生产至关重要。”“‘如果我们的自动化系统出现故障,或者可能被大规模颠覆,那就是一个大问题。’”

保护人工智能系统的工作与传统的计算机安全有相似之处。Facebook的人工智能红色团队得名于演习的一个术语,在演习中,为组织工作的黑客通过扮演攻击者的角色来探测其防御。他们知道,他们部署的任何修复都可能是回避的,因为他们的对手会想出新的伎俩和攻击。

不过,在其他方面,减轻对人工智能系统的攻击与防止传统黑客攻击截然不同。捍卫者担心的漏洞不太可能是特定的、可修复的错误,而更有可能反映出当今人工智能技术的内在限制。米克尔·罗德里格斯(Mikel Rodriguez)是MITRE公司(MITRE Corporation)研究人工智能漏洞的研究员,该公司是一家运营联邦研究项目的非营利性组织,他说:“它与网络安全的不同之处在于,这些东西是与生俱来的。”“你可以编写一个完全安全的机器学习模型,但它仍然是脆弱的。”

对人工智能安全的不断增长的投资反映了Facebook、谷歌和其他公司也在更努力地思考部署人工智能的伦理后果。这两个问题的根源都在于,尽管现有的人工智能技术很有用,但它是狭窄和僵化的,它不能像人类那样适应不可预见的情况。

越来越多的机器学习研究论文库记录了一些技巧,比如只改变照片中的几个像素,让人工智能软件产生幻觉,并检测不存在的物体。一项研究显示,谷歌的图像识别服务可能会被愚弄,将步枪归类为直升机;另一项研究显示,3D打印的物体形状多面,使得中国百度自动驾驶汽车原型的激光雷达软件看不见它们。其他攻击包括“数据中毒”,即对手更改用于训练机器学习算法的数据,以损害其性能。

Mitre正在与交通和国家安全等领域的政府客户合作,研究如何将此类漏洞降至最低。罗德里格斯拒绝透露细节,但他表示,就像在Facebook一样,一些美国政府机构想知道他们正在构建的关键功能中的人工智能可能出了什么问题。他的团队的项目包括展示提取用于训练面部识别算法的人脸是可能的,以及欺骗安装在头顶上飞行的飞机上的机器学习软件来解释它们的周围环境。国防部计划使人工智能成为美军越来越核心的平台,从发现战场上的威胁到医疗保健和后台管理。

Facebook的人工智能红色团队由克里斯蒂安·坎顿(Cristian Canon)领导,他是一名计算机视觉专家,于2017年加入该公司,并管理着一个致力于图像缓和滤镜的小组。他为他的团队在人工智能系统上检测儿童色情和暴力等被禁内容的工作感到自豪,但他开始怀疑这些系统到底有多强大。

2018年,坎顿组织了一场“风险马拉松”,来自Facebook各地的人们花了三天时间竞争,寻找最引人注目的方法来绊倒这些系统。坎顿说,一些团队发现了弱点,这些弱点说服了他,公司需要让其人工智能系统更强大。

比赛中的一个团队显示,在一篇帖子中使用不同的语言可能会迷惑Facebook的自动仇恨言论过滤器。第二个人发现了2019年初在Instagram上传播色情内容的攻击,但当时并不认为这是当务之急。“我们预测了未来,”坎顿说。“这启发了我,这应该是我的日常工作。”

在过去的一年里,坎顿的团队调查了Facebook的节制系统。它还开始与公司内部的另一个研究团队合作,该团队已经建立了一个名为WW的Facebook模拟版本,可以作为一个虚拟游乐场来安全地研究不良行为。其中一个项目是检查提供社交网络上被禁止商品的帖子的流通情况,比如娱乐毒品。

红色团队最重要的项目旨在更好地理解深伪,这是一种使用人工智能生成的图像,看起来就像是用相机捕捉到的。结果表明,防止人工智能欺骗并不容易。

深伪技术正变得更容易获取,并已被用于有针对性的骚扰。当坎顿的团队去年成立时,研究人员已经开始发表如何自动过滤深度假货的想法。但他发现一些结果令人怀疑。“没有办法衡量进展,”他说。“有些人报告的准确率为99%,我们当时的反应是‘这不是真的’。”

Facebook的人工智能红色团队发起了一个名为“Deepfakes检测挑战”的项目,以推动在检测人工智能生成的视频方面取得进展。它雇佣了4000名演员主演各种性别、肤色和年龄的视频。在Facebook的工程师们通过交换人脸将一些剪辑变成了深度假冒之后,开发人员面临着开发能够识别拟像的软件的挑战。

上个月公布的结果显示,最好的算法只能在65%的时间内发现Facebook收藏之外的深度假货。这表明Facebook不太可能很快就能可靠地检测到深度假货。“这真的是一个很难的问题,而且没有得到解决,”坎顿说。

坎顿的团队现在正在检查Facebook的错误信息检测器和政治广告分类器的健壮性。他说:“我们正试图非常广泛地考虑即将到来的选举中的紧迫问题。”

大多数在业务中使用人工智能的公司不必像Facebook那样担心被指控歪曲总统选举。但在微软从事人工智能安全工作的拉姆·尚卡尔·西瓦·库马尔(Ram Shankar Siva Kumar)表示,他们仍然应该担心人们会扰乱他们的人工智能模型。他为3月份发表的一篇论文做出了贡献,该论文发现,在接受调查的25家公司中,有22家根本没有确保其人工智能系统的安全。“大多数安全分析师仍在纠结于机器学习,”他说。“盒子上的网络钓鱼和恶意软件仍然是他们的主要业务。”

去年秋天,微软发布了与哈佛大学合作开发的人工智能安全文档,该公司内部使用这些文档来指导其安全团队。它讨论了诸如“模型窃取”之类的威胁,即攻击者向AI服务发送重复的查询,并使用响应来构建行为相似的副本。“偷来的”副本可以直接使用,也可以用来发现允许攻击者操纵原始付费服务的缺陷。

卡利亚里大学(University Of Cagliari)教授巴蒂斯塔·比吉奥(Battista Biggio)十多年来一直在发表关于如何欺骗机器学习系统的研究,他表示,科技行业需要开始自动化人工智能安全检查。

公司在部署传统软件之前,会使用一组预先编程的测试来检查其缺陷。Biggio说,提高正在使用的人工智能系统的安全性将需要类似的工具,可能会建立在他和其他人在学术研究中证明的攻击之上。

这可能有助于解决库马尔强调的机器学习算法部署数量与了解其潜在漏洞的劳动力之间的差距。然而,Biggio说,仍然需要生物智能,因为对手将不断发明新的伎俩。“环路中的人仍将是一个重要的组成部分,”他说。

🎙️收听“连线”,这是我们关于未来如何实现的新播客。收看最新剧集,订阅📩时事通讯,跟上我们所有节目的最新动态。

💻使用我们Gear团队最喜欢的笔记本电脑、键盘、替代打字设备和降噪耳机升级您的工作游戏