在1960年代,弗吉尼亚理工学院教授Henry J. Kelley,斯坦福大学的Arthur E. Bryson和加州大学伯克利分校的Stuart Dreyfus等学者提出了反向传播理论。它是一种算法,后来被广泛用于训练神经网络,这种计算系统受到构成动物大脑的生物神经网络的模糊启发。由于廉价,功能强大的计算系统的出现,反向传播在2010年代变得更加突出,从而导致语音识别,计算机视觉和自然语言处理的发展。
反向传播通常效果很好,但由于它可以针对固定目标而不是移动目标优化AI模型,因此受到限制。一旦模型学会根据数据集做出预测,他们就有冒着在获得新训练数据时忘记所学知识的风险,这种现象被称为“灾难性遗忘”。这就是为什么研究人员正在研究从反向传播转向持续学习形式的技术,而这些技术并不需要对他们的整个经历进行再培训。专家认为,这种更人性化的学习方式赋予了学习新信息而不会忘记的能力,可能会导致AI和机器学习领域的重大进步。
在12月初,在实际上举行的NeurIPS 2020会议的研讨会上,提出了许多传统反向传播的替代方法。一些利用诸如光子电路之类的硬件来进一步提高反向传播的效率,而另一些则采用了更加模块化,灵活的训练方法。
反向传播的最简单形式是计算损失函数相对于模型权重的梯度(训练机器学习模型时使用的优化算法)。 (损失函数是一种评估特定算法对给定数据集建模的良好程度的方法。)神经网络由相互连接的神经元组成,数据通过该神经元移动并由权重控制两个神经元之间的信号,从而决定将多少数据馈送到网络中将具有从中产生的输出。
反向传播是有效的,使训练包含许多神经元的多层网络,同时更新权重以使损失最小化成为可能。如前所述,它的工作原理是通过链式规则计算损失函数相对于每个权重的梯度,一次计算一次梯度,然后从最后一层开始迭代,以避免重复计算。
但是,尽管具有所有优点,但是反向传播在可以达到一定程度的方面受到了严重限制。例如,正如数学家Anthony Repetto指出的那样,反向传播使得无法识别数据集特征的“星座”。当使用反向传播训练的计算机视觉系统将图像中的对象(例如“马”)分类时,它无法传达图像中的哪些特征导致了该结论。 (丢失了这些信息。)反向传播还会顺序更新网络层,从而难以并行化训练过程并导致更长的训练时间。
反向传播的另一个缺点是它倾向于陷入损失函数的局部最小值中。从数学上讲,训练模型的目标是收敛于全局最小值,即损失函数中模型已优化其预测能力的点。但是,通常存在全局最小值的近似值(接近最佳点,但不是精确点),而是反向传播找到的。这并不总是一个问题,但是它可能导致模型方面的错误预测。
曾经认为,用于通过网络向后传播的权重必须与用于向前传播的权重相同。但是最近发现的一种称为直接反馈对齐的方法表明,随机权重同样有效,因为网络有效地学习了如何使它们有用。这为后退通行并行化打开了大门,有可能将训练时间和功耗降低一个数量级。
确实,在匿名提交给NeurIPS研讨会的论文中,合著者提出了“老虎机”网络,其中每个“卷轴”(即神经元之间的连接)都包含一组固定的随机值。该算法“旋转”转盘以寻求“获胜”组合或选择的随机权重值,以最大程度地减少给定损失。结果表明,仅为每个连接分配几个随机值,例如每个连接八个值,可以提高经过训练的基线模型的性能。
在接受该研讨会的另一篇论文中,开发光子计算硬件的初创公司LightOn的研究人员声称,反馈对准可以成功地训练一系列最先进的机器学习架构,其性能接近于微调的反向传播。尽管研究人员承认他们的实验需要“大量”的云资源,但他们说这项工作提供了“新观点”,可能“有利于神经网络在以前由于计算限制而无法访问的领域中的应用”。
但是对齐并不是完美的解决方案。尽管它成功地训练了诸如“变形金刚”之类的模型,但是众所周知,它未能训练卷积网络,而卷积网络是计算机视觉模型的主要形式。此外,与反向传播不同,反馈调整在对抗性攻击,可解释性和公平性等主题上的研究已有数十年之久。规模扩大对齐的效果仍未得到研究。
迄今为止,提出的反向传播的最根本的替代方法可能是为反馈对齐量身定制的新硬件。在由LightOn的另一个小组提交给研讨会的研究中,合著者描述了一种光子加速器,该光子加速器表面上能够计算具有数万亿个不同变量的随机投影。他们声称自己的硬件(光子协处理器)与架构无关,并且可能朝着构建不依赖于反向传播的可扩展系统迈出了一步。
光子集成电路是LightOn芯片的基础,与电子同类产品相比,具有许多优势。它们只需要有限的能量,因为光产生的热量比电少,并且不易受到环境温度,电磁场和其他噪声变化的影响。与硅等效产品相比,光子设计中的延迟提高了10,000倍,而功耗水平却降低了“几个数量级”,此外,某些模型的工作负载运行速度比最新的电子芯片快了100倍。
但是,值得注意的是,LightOn的硬件无法不受光学处理的限制。快速的光子电路需要快速的存储,然后是将每个组件(包括激光器,调制器和光学组合器)封装在一个微小的芯片晶圆上的问题。此外,关于在光学领域可以执行哪种类型的非线性运算(使它们能够进行预测的模型的基本构建模块)的问题仍然存在。
反向传播问题的另一个,不一定是互斥的答案涉及将神经网络拆分为更小,更易于管理的部分。在一项匿名合着的研究中,研究人员建议将模型划分为称为邻域的子网,然后对其进行独立训练,这具有并行性和快速训练的优势。
马里兰大学计算机科学系的研究人员则在训练整个网络之前,对子网进行了独立的预训练。他们还利用子网之间的注意力机制来帮助在模棱两可的场景中识别最重要的模式(视觉,听觉或文本),从而提高性能。在本文中,“注意力”是指一种识别输入序列的哪些部分(例如单词)与每个输出相关的方法。
马里兰大学的研究人员说,他们的方法可以使简单的网络实现与复杂架构相似的性能。而且,他们说,这样做可以大大减少训练时间,例如情感分析,情感识别和说话人特质识别。
2017年,多伦多大学和Google的AI研究部门研究员,计算机学会图灵奖得主Geoffrey Hinton在接受采访时对Axios表示,他对深度学习“深表怀疑”。他说:“我的观点是将其全部抛弃,然后重新开始。” “我不认为大脑是这样运作的。”
Hinton提到这样一个事实:通过反向传播,模型在出错时必须“告知”,这意味着它是“受监督的”,因为它无法学会自己对模式进行分类。他和其他人认为,无监督学习或自我监督学习是朝着更强大的AI技术迈出的必经之路,其中模型在没有预先存在标签的情况下在数据集中寻找模式。
除此之外,反向传播的基本局限性继续激励研究团体寻找替代品。现在还处于初期,但是如果这些早期尝试成功了,效率的提高可能会扩大从业者和企业之间对AI和机器学习的访问范围。