一种激进的新技术让人工智能在几乎没有数据的情况下学习

2020-10-19 03:55:41

机器学习通常需要大量的例子。要让人工智能模型识别一匹马,你需要向它展示数以千计的马的图像。这就是这项技术在计算上昂贵的原因-而且与人类学习有很大的不同。孩子通常只需要看到几个物体的例子,甚至只有一个,才能终生识别它。

事实上,孩子们有时不需要任何例子来识别东西。他们展示了一匹马和一头犀牛的照片,并告诉他们独角兽介于两者之间,他们可以在第一次看到图画书中的神话生物时认出它。

现在,安大略省滑铁卢大学的一篇新论文提出,人工智能模型也应该能够做到这一点-研究人员称这一过程“不到一次”-拍摄,或Lo-shot,学习。换句话说,人工智能模型应该能够准确识别比它所训练的样本数量更多的对象。对于一个随着使用的数据集变得越来越大而变得越来越昂贵和难以进入的领域来说,这可能是一个大问题。

研究人员在实验流行的计算机视觉数据集MNIST时首次演示了这一想法。MNIST包含从0到9的6万个手写数字的训练图像,经常用于在该领域测试新想法。

在之前的一篇论文中,麻省理工学院的研究人员介绍了一种技术,将巨大的数据集“提炼”成微小的数据集,作为概念的证明,他们将MNIST压缩到只有10张图像。这些图像不是从原始数据集中挑选出来的,而是经过精心设计和优化的,以包含与全套相同的信息量。因此,当只对这10张图像进行训练时,人工智能模型可以达到几乎与对所有MNIST图像进行训练的准确度相同的精度。

滑铁卢的研究人员希望进一步推进蒸馏过程。如果可以将60,000张图片缩小到10张,为什么不把它们压缩成5张呢?他们意识到,诀窍是创建将多个数字混合在一起的图像,然后将它们输入到带有混合或“软”标签的人工智能模型中。(回想一下具有独角兽部分特征的马和犀牛。)。

滑铁卢大学博士生、这篇论文的主要作者伊利亚·苏库鲁茨基(Ilia Sucholutsky)说:“如果你想一想数字3,它看起来也有点像数字8,但与数字7一点也不像。”“软标签试图捕捉这些共享功能。因此,我们不会告诉机器,‘这个图像是数字3’,而是说,‘这个图像是数字3的60%,数字8的30%,数字0的10%。’“。

一旦研究人员成功地使用软标签在MNIST上实现了Lo-shot学习,他们就开始怀疑这个想法实际上能走多远。你可以教一个人工智能模型从极少的例子中识别的类别有没有限制?

令人惊讶的是,答案似乎是否定的。通过精心设计的软标签,理论上即使是两个示例也可以对任意数量的类别进行编码。Sucholutsky说:“有了两个点,你就可以把一千个班级、一万个班级或者一百万个班级分开。”

这是研究人员在他们的最新论文中通过纯粹的数学探索证明的。他们用一种最简单的机器学习算法来实现这一概念,称为k近邻(KNN),这种算法使用图形方法对对象进行分类。

要了解KNN是如何工作的,请以水果分类任务为例。如果要训练KNN模型以理解苹果和橙子之间的区别,则必须首先选择要用来表示每个水果的特征。也许您选择颜色和重量,因此对于每个苹果和橙子,您用水果的颜色作为其x值,将重量作为其y值,向knn提供一个数据点。然后,KNN算法将所有数据点绘制在2D图表上,并在苹果和橙子之间沿中间垂直绘制一条边界线。在这一点上,曲线图被整齐地分成两类,算法现在可以根据新数据点位于直线的哪一侧来决定它们代表的是其中一个还是另一个。

为了探索使用KNN算法的Lo-shot学习,研究人员创建了一系列微小的合成数据集,并仔细设计了它们的软标签。然后,他们让KNN绘制它看到的边界线,并发现它成功地将曲线图分成了比数据点更多的类。研究人员还高度控制了边界线落在哪里。通过对软标签进行各种调整,他们可以得到KNN算法来绘制精确的花朵形状图案。

当然,这些理论探索也有一定的局限性。虽然Lo-shot学习的想法应该转移到更复杂的算法上,但设计软标记示例的任务变得更加困难。KNN算法是可解释和可视的,使得人类可以设计标签;神经网络复杂且难以穿透,这意味着同样的情况可能不是真的。为神经网络设计软标签示例的数据蒸馏也有一个主要缺点:它要求您从一个巨大的数据集开始,以便将其缩减为更有效的数据集。

Sucholutsky说,他现在正致力于找出其他方法来设计这些微小的合成数据集-无论这是指手工设计还是用另一种算法设计。然而,尽管存在这些额外的研究挑战,本文还是为Lo-shot学习提供了理论基础。“结论是,根据你拥有的数据集的类型,你可能会获得巨大的效率提升,”他说。

这是最让通州王感兴趣的,他是麻省理工学院的博士生,领导了早期关于数据蒸馏的研究。“这篇论文建立在一个非常新颖和重要的目标之上:从小数据集中学习强大的模型,”他在谈到苏库卢茨基的贡献时说。

蒙特利尔人工智能伦理研究所的研究员瑞安·库拉纳(Ryan Khurana)呼应了这一观点:“最重要的是,‘少于一次’的学习将从根本上降低建立功能模型所需的数据需求。”这可能会使人工智能更容易被到目前为止受到该领域数据要求阻碍的公司和行业使用。它还可以改善数据隐私,因为训练有用的模型需要从个人那里提取更少的信息。

Sucholutsky强调,这项研究还为时过早,但他很兴奋。他说,每次他开始向其他研究人员展示他的论文时,他们的第一反应是说这个想法是不可能的。当他们突然意识到事实并非如此时,它打开了一个全新的世界。