麻省理工学院道歉,永久拉下线下的巨大数据集,教会AI系统使用种族主义、歧视女性的污蔑

2020-07-02 02:25:55

特别报道麻省理工学院已经将其被高度引用的数据集下线,该数据集训练人工智能系统潜在地使用种族主义、厌女症和其他有问题的术语来描述人。

本周,在《登记册》向美国超级学院发出警告后,该数据库被删除。麻省理工学院还敦促研究人员和开发人员停止使用训练库,并删除任何副本。我们真诚地道歉,一位教授告诉我们。

由该大学建造的训练集已被用于教授机器学习模型,以自动识别和列出静止图像中描述的人和对象。例如,如果您向其中一个系统显示公园的照片,它可能会告诉您快照中显示的儿童、成人、宠物、野餐范围、草地和树木。然而,由于麻省理工学院在组装训练集时漫不经心的做法,这些系统也可能会将女性贴上妓女或婊子的标签,并用贬义性的语言将黑人和亚洲人贴上标签。该数据库还包含标有C字的女性生殖器的特写照片。

因此,应用程序、网站和其他依赖于使用麻省理工学院数据集训练的神经网络的产品可能最终会在分析照片和相机镜头时使用这些术语。

有问题的培训库是8000万个微小图像,它创建于2008年,目的是帮助生产先进的物体检测技术。本质上,它是一个巨大的照片集合,上面的标签描述了照片中的内容,所有这些都可以输入神经网络,教他们将照片中的模式与描述性标签联系起来。因此,当训练好的神经网络显示一辆自行车时,它可以准确地预测快照中是否存在一辆自行车。它之所以被称为“小图像”,是因为图书馆里的图片足够小,足以让2000年代末和2010年代初的计算机视觉算法消化。

今天,微型图像数据集与更知名的ImageNet训练集一起用于对计算机视觉算法进行基准测试。然而,与ImageNet不同的是,到目前为止,还没有人仔细检查过微型图像是否有问题的内容。

硅谷隐私初创公司UnifyID的首席科学家维奈·普拉布(Vinay Prabhu)和爱尔兰都柏林大学学院(University College Dublin)的博士生阿贝巴·比尔哈尼(Abeba Birhane)仔细研究了麻省理工学院的数据库,发现了数千张贴着针对黑人和亚洲人的种族主义诽谤的图片,以及用来描述女性的贬义性词汇。他们在提交给定于明年举行的计算机视觉会议的一篇论文[印刷前的PDF]中透露了他们的发现。

该数据集保存了超过7930万张图片,这些图片是从谷歌图片中抓取的,排列在7.5万多个类别中。一个较小的版本,有220万张图片,可以从麻省理工学院计算机科学和人工智能实验室(CSAIL)的网站上搜索和在线阅读。周一,在El Reg提醒数据集的创建者注意Prabhu和Birhane的工作后,这种可视化以及完整的可下载数据库被从CSAIL网站上删除。

关键问题是,例如,数据集包括标有N字的黑人和猴子的照片;穿比基尼或抱着孩子的女人标有妓女的照片;解剖学的一部分标有粗俗术语;等等-不必要地将日常图像与诽谤和攻击性语言联系起来,并在未来的人工智能模型中烘焙偏见和偏见。

CSAIL的电气工程和计算机科学教授安东尼奥·托拉尔巴(Antonio Torralba)表示,实验室根本不知道这些令人不快的图片和标签存在于数据集中。“很明显,我们应该对他们进行人工筛查,”他告诉“纪事报”(The Register)。“对此,我们表示诚挚的歉意。事实上,我们已经使数据集离线,这样就可以删除有问题的图像和类别。“。

然而,CSAIL在其网站上的一份声明中表示,数据集将永久离线,因为图像太小,无法手动检查和手工过滤。该实验室还承认,它自动从互联网上获得了这些图像,而没有检查图书馆是否摄入了任何冒犯性的照片或语言,并敦促人们删除自己的数据副本:

已经引起我们注意的是,微小图像数据集包含一些贬义性的术语,如类别和攻击性图像。这是自动数据收集过程依赖于来自WordNet的名词的结果。我们对此深表关切,并向可能受到影响的人表示歉意。

数据集太大(8000万张图像),图像太小(32x32像素),人们很难在视觉上识别其内容。因此,人工检查即使可行,也不能保证可以完全去除攻击性图像。

因此,我们决定正式撤回该数据集。它已离线,不会重新上线。我们要求社区将来不要使用它,并删除可能已经下载的数据集的任何现有副本。

托拉尔巴教授告诉了我们更多关于图书馆是如何构建的:获得了一个巨大的单词列表-包括贬义性术语-然后编写代码,使用这些单词在网络上搜索图像,并将这些单词组合在一起。结果是一个包含原始互联网材料的数据集。

托拉尔巴教授说:“这个数据集包含53,464个不同的名词,它们是直接从WordNet上复制过来的。”托拉尔巴教授指的是普林斯顿大学的英语单词数据库,这些单词被分组到相关的集合中。然后,使用当时可用的过滤器,这些图片被用来自动从互联网搜索引擎下载相应名词的图片,以收集8000万张图片。“

20世纪80年代中期,认知心理学创始人之一乔治·阿米蒂奇·米勒(George Armitage Miller)领导下的普林斯顿认知科学实验室建立了Wordnet。“米勒痴迷于词语之间的关系,”普拉布告诉我们。“数据库本质上映射了单词之间的关联方式。”

例如,猫和狗这两个词比猫和伞关系更密切。不幸的是,WordNet中的一些名词是种族主义俚语和侮辱。现在,几十年后的今天,随着学者和开发人员将数据库用作方便的英语单词竖井,这些术语困扰着现代机器学习。

“当你在构建巨大的数据集时,你需要某种结构,”Birhane告诉El Reg。“这就是为什么WordNet是有效的。它为计算机视觉研究人员提供了一种对图像进行分类和标记的方法。既然你可以使用WordNet,为什么还要自己去做呢?“。

作为一系列单词,Wordnet本身可能没有那么有害,尽管当它与图像和人工智能算法结合时,可能会产生令人不安的后果。Birhane说:“(WordNet)项目的目的就是映射彼此相近的单词。”但是,当你开始将图像与这些词语联系起来时,你就是在把一张真人的照片放在一起,并将它们与使刻板印象永久化的有害词语联系在一起。“。

ImageNet也有同样的问题,因为它也是使用WordNet进行注释的。一项名为ImageNet Roulette的实验允许人们将照片提交给由ImageNet训练的神经网络,该神经网络将使用数据集中的标签来描述图像。不出所料,人们向系统提供了最让他们着迷的快照:他们的自拍。当软件用种族主义和攻击性的标签描述他们时,一些人感到震惊。

这个图像识别轮盘赌充满了乐趣和游戏。直到它给你贴上强奸嫌疑犯、离婚者或种族诽谤的标签。

多读。

这些巨型数据集中有问题的图像和标签的比例很小,很容易将它们视为异常而置之不理。然而,Prabhu和Birhane认为,如果这些材料被用来训练现实世界中使用的机器学习模型,那么它们可能会导致真正的伤害。

他们在论文中写道:“缺乏对规范数据集的批判性参与,对妇女、种族和少数民族,以及处于社会边缘的弱势个人和社区产生了不成比例的负面影响。”

这些群体在人工智能训练数据集中往往没有得到很好的代表;这就是为什么面部识别算法难以识别女性和深色皮肤的人的原因。今年早些时候,底特律一名黑人男子被面部识别软件误认为窃贼嫌疑人,随后被警方错误逮捕。这也是为什么一种有争议的人工智能算法,从低分辨率的照片中生成高分辨率的图像,将巴拉克·奥巴马的模糊照片变成比布莱克更高加索的人。

Birhane说:“人们不会考虑这些模型将如何应用,或者它可以用来做什么。”他们只会想‘哦,这是我能做的一件很酷的事’。但当你开始更深入地思考时,你会开始发现所有这些阴险的目的,并看看这些危害是如何显现的。“。

像ImageNet和8000万个微小图像这样的巨型数据集也经常是在没有得到人们明确同意的情况下从Flickr或Google Images上刮照片来收集的。与此同时,Facebook聘请了一些演员,他们同意将自己的脸用于一个数据集,该数据集旨在教授软件检测计算机生成的伪造图像。

普拉布和比尔哈恩说,社交网络的做法是个好主意,尽管他们指出,学术研究不太可能有资金来支付演员在训练场的主演费用。他们说:“我们承认没有完美的解决方案来创建理想的数据集,但这并不意味着人们不应该尝试创建更好的数据集。”

两人建议在专注于对象识别的数据集中模糊人的脸,仔细筛选图像和标签以删除任何攻击性材料,甚至使用真实的合成数据进行训练系统。他们说:“你不需要包括种族诽谤、色情图片或儿童照片。”做好科学工作和遵守道德标准并不是相互排斥的。“。

The Register-独立于科技界的新闻和观点。情况发布的一部分