Tench:当数据乱七八糟时

2020-07-04 05:59:56

我在书中讲了一个故事,因为这是一个很好的例证,说明了人工智能如何在我们要求它解决的问题上产生了错误的想法:

图宾根大学(University Of Tuebingen)的研究人员训练神经网络识别图像,然后让它指出图像的哪些部分对其决策最重要。当他们要求它突出显示“丁奇”(一种鱼)类别中最重要的像素时,它突出显示的是:

为什么它要寻找人类的手指,而它应该是在寻找一条鱼呢?结果发现,神经网看到的大多数尖牙图片都是人们拿着鱼作为战利品的照片。它没有任何关于丁鱼实际是什么的上下文,所以它假设手指是鱼的一部分。

ArtBreeder中的图像生成神经网络(称为BigGAN)也在相同的数据集(称为ImageNet)上进行训练,当您要求它生成张弦时,它的功能如下:

人类比鱼要清晰得多,我被高度夸张的人类手指迷住了。

ImageNet中还有其他类别也有类似的问题。这是“麦克风”。

它已经弄清楚了戏剧性的舞台灯光和人形,但它的许多图像都不包含任何与麦克风有丝毫相似的东西。在它的许多训练图片中,麦克风只是图像的一小部分,很容易被忽视。像“长笛”和“双簧管”这样的小乐器也有类似的问题。

在其他情况下,可能有图片被贴错标签的证据。在这些生成的“足球头盔”图像中,有些明显是没有戴头盔的人,少数甚至看起来可疑地像棒球头盔。

ImageNet是一个非常混乱的数据集。它有一个长颈鹿的类别,但没有长颈鹿的类别。它没有把马作为一个类别,而是有酸辣酱(一种特定的马的颜色)。“双人自行车”是一个类别,但不是滑板。

ImageNet乱七八糟的一个很大原因是它是从互联网上的图像中自动抓取的。这些图片本应被贴上标签的众包工作人员过滤,但大量的奇怪之处悄悄溜走了。可怕的是,许多绝对不应该出现在通用研究数据集中的图像和标签,以及看起来像是在没有得到照片中的人同意的情况下到达那里的图像。据报道,在人工智能社区广泛使用了几年后,ImageNet团队一直在删除其中的一些内容。其他有问题的数据集-比如未经许可从在线图像或监控录像中抓取的数据集-最近已经被删除。(其他的,如Clearview AI,仍在使用中。)。

本周,Vinay Prabhu和Abeba Birhane指出了另一个数据集8000万个微小图像的主要问题,该数据集在另一个针对互联网文本训练的神经网络的帮助下,抓取图像并自动为它们分配标签。你可能会震惊地听到,互联网文本中有一些相当令人反感的内容。麻省理工学院CSAIL永久删除了该数据集,而不是手动过滤所有8000万张图像。

这不仅仅是坏数据的问题,而且是一个系统的问题,在这个系统中,主要的研究小组可以用攻击性的语言和缺乏同意的方式发布存在如此巨大问题的数据集。正如技术伦理学家香农·瓦勒(Shannon Vallor)所说,“对于今天任何从事机器学习的机构来说,‘我们不知道’不是借口,而是一种忏悔。”就像将奥巴马提升为白人的算法一样,ImageNet是一个机器学习社区的产物,在这个社区里,多样性严重缺乏。(你有没有注意到,在这篇博客文章中,大多数生成的人类都是白人?如果你没有注意到,这可能是因为西方文化中有太多的人把白色视为默认)。

要创建更好的数据集,并更清楚哪些数据集永远不应该创建,需要做大量的工作。但这是值得做的工作。

本周的奖励材料:几个我最喜欢的BigGan图片类别。请在此处输入您的电子邮件以获取图库!

我的关于人工智能的书已经出版了,你现在可以通过这几种方式中的任何一种来获得它!亚马逊-巴恩斯和来宝-印度方向-破旧的封面-鲍威尔的-Boulder书店