骑行硬件彩票

2020-11-13 19:36:33

这篇文章在很大程度上依赖插图,插图是嵌入的图像。如果你是通过电子邮件阅读这篇文章,最好是直接在子栈上阅读,因为一些电子邮件客户端会剪辑长邮件并屏蔽图像。

正如你可以从佩奇大街实验室的前两篇帖子中看出的那样,最近我一直痴迷于超大参数(VLP)模型。我并不总是这样。在我的个人博客和推特上,我已经写了足够多的关于通过层层叠加和祈祷它奏效来建立模型的文化。自从我们发现添加更多参数(具体地说是添加更多层)会有帮助之后,人们就一直在挑战这一极限。下面是ImageNet的一个例子:

这些努力中的大多数都是B-O-R-I-N-G(但也有一些好的经验教训可能并不广泛适用)。然而,非常大的参数模型(想一想GPT-3及以上)在它们的功能方面有一些根本的不同之处。

谷歌(Google)的萨拉·胡克(Sara Hooker)在arxiv上发表了一篇文章,顺便说一句,这篇文章也应该出现在arxiv上吗?结尾处有一个BibTeX条目。森派引用我的话好吗?)。文章解释了某些领域的研究如何获得大量关注和支持--包括软件和硬件--胜过其他被文章称为“硬件彩票”的领域,以及这如何阻碍了对其他领域的创新投资。硬件彩票并不新鲜;即使在计算机科学中也不是,但这篇文章的核心论点是“硬件彩票正在拖累我们,应该避免。”

硬件彩票,更广泛地说,资源彩票,随着技术的存在而存在了很长时间,这仅仅是因为创新的本质和资本密集型企业的经济。例如,几十年来,精密的液压发动机被电动发动机取代,但在此之前,许多有趣的想法和应用(如贝塞默工艺和钢铁的大规模生产)都来自液压技术。即使使用电动执行机构,你所能产生的电场强度也会限制你所能产生的压力,而液压只会受到材料强度的限制。因此,即使电力是一种一致优越/高效的技术,也没有绝对的赢家;这完全取决于背景。我可以继续下去,但这不是一个关于创新进化的帖子(这是我最喜欢的话题,所以我们无疑会在后面的帖子里再讨论这个话题)。这是一篇关于利用不可避免的硬件彩票的帖子。要完全做到这一点,我们需要了解模型的缩放,然后才能将其视为浪费的练习。

我们对规模的直觉往往是错误的。奇怪的事情发生在规模的极端。实际上,所有关于生活方方面面的理论--无论是自然的还是人为的--都会在任何一个方向上被打破。让我们举几个例子:

时间:我们可以在头脑中直截了当地计划接下来的几个小时,付出一些努力,并在日历的帮助下为接下来的几天做计划,但我们中的许多人都在为未来几年的后果而苦苦思索。很少有人能想到,比方说,未来十年的影响(他们中的许多人都是著名的投资者,这并不是偶然的)。

货币:随着货币规模的扩大,人们很难理解它是什么,它能做什么,因为货币本身的性质随着积累而变化。正如马克思所指出的:

资本的积累最初只是作为其数量的延伸,但正如我们所看到的,它是通过其构成的渐进式质变而取得成果的。《资本论》(1867年)。

彩票中奖者在面对他们的中奖时通常会感到困惑,大多数美国人在把握我们国家债务的程度上都有困难。

在菲茨杰拉德和海明威1920年在巴黎一家咖啡馆里的对话中,简单的资本积累和其质量效应之间的细微差别得到了最好的诠释:

菲茨杰拉德:“富人和我们不一样。”海明威:“是的,他们有更多的钱。”

人群:人们的规模也不同。一大批平庸的员工走到一起,组成一个出色的组织单位,这并不少见。虽然个人和小团体的意见不那么有趣,但推特(Twitter),最大的意见衡量实验之一,已经在思维上产生了翻天覆地的变化(#MeToo,#BLM,...)。和海量信息操作同时进行。

物理科学:自然界是有层次的自组织的,需要全新的定律来理解不同的尺度(例如,亚原子尺度的量子力学和宇宙尺度的广义相对论),这并不是一个缺陷。换句话说,每一次量变都伴随着它自身的质变。

“整体不仅比各部分之和更大,而且非常不同。”-安德森(1972),“更多是不同的。”--安德森(1972),“更多是不同的”。

即使在像数学这样的精确领域,奇异极限也是存在的,已知的递归也会超出极限。

因此,一个自然的问题是:当我们将神经网络中的参数数量调整到荒谬的水平时,会发生什么?是否存在组成部分无法解释的“紧急”现实?

我们已经在像GPT-3这样的VLP模型中看到了其中的一些,在GPT-3中,该模型能够在只看到几个例子(所谓的“零概率”/“少概率”泛化)之后,在自然语言或其他领域中“解决”几个未见过的问题。但我们并不真正了解这种情况是如何发生的,也不知道为什么会发生这种情况。研究这个新出现的现实应该是任何研究VLP模型的人的首要任务。

人工智能领域的讨论经常与人脑相提并论(有时毫无根据)。反对参数缩放的一个论点是,人脑依靠电动剃须刀的力量运行,我们可能会浪费时间、精力和精力在GPU/TPU上运行这些VLP模型。这种说法是基于一些有缺陷的假设:

1.人脑是一件完美的工程,应该被模仿。这一假设是人类思维的陷阱;事实上,很少有东西能像人脑那样对人类思维产生奇妙的影响。弗朗索瓦·雅各布(Francois Jacob)在1977年发表的一篇颇具影响力的文章《进化与修补》中对此进行了最好的解释:

我们很难认识到,我们所知道的生命世界只是众多可能性中的一种;它的实际结构是由地球的历史决定的。…。它们代表的不是完美的工程产品,而是在机会出现的时间和地点拼凑而成的奇特组合。

机会主义反映了“充满偶然性的历史进程的本质”。换句话说,我们是各种彩票的产物--实物彩票、生态彩票和历史彩票。改变这些彩票的性质将导致不同的结果,而不一定是可以证明的更好的结果。

2.低功耗!=较少的参数。人类大脑的超低能量特性更多地与其底物有关,而不是连接的数量。事实上,进化神经生物学和比较神经解剖学的研究表明,体重、大脑重量和神经元数量之间存在很强的相关性。

这也不是说原始人的大脑一直处于静止状态。事实上,像Suzana Herculano-Houzel这样的一些研究人员认为,智人实际上比他们的祖先有了硬件升级,这主要是因为烹饪的发明,它提供了一种提高食物能量密度的方法,就像你因为增加了额外的GPU而升级了你的电源装置一样。

也许,人工智能的未来将是在超低功耗生物电子设备上运行的非常大的参数模型。

旁白:修剪和蒸馏人工智能模型是在接近能力的情况下降低功耗的方法。修剪去除了模型中无关紧要的权重,而蒸馏则训练单独的较小模型,以师生的方式模拟较大模型的输出。虽然这些方法有实际应用,但它们不会在现有模型上创建新的功能。

硬件彩票是资源彩票的一种。创新的资源彩票在科学和工程领域并不新鲜,如果我们回顾一下,即使是大自然也有几个这样的彩票例子。事实上,一个普遍的观察是,资源彩票是不可避免的,专注于回答当前现实提出的有趣问题,而不是想象中的未来,也会更好地服务于我们。如果我们试图创造一种脱离经济/现实的想法空间的统一探索(以“避免硬件抽奖”),那么我们将错失有趣的研究机会,因为它们不符合我们目前对人脑是如何工作或有能力工作的理解,只因为它们不符合我们目前对人脑是如何工作或有能力工作的理解,这仅仅是因为它们不符合我们目前对人脑如何工作或有能力工作的理解。

尤其需要注意的是,并不是所有的大型模型都是一样的,而非常大的参数模型之所以特别有趣,是因为它们以我们今天不理解的方式为模型添加了更多功能。

看待当今人工智能建模的一种方式是想象我们身处寒武纪时代,各种各样的大脑从最高效到最低效率不断涌现。随着对资源的争夺,效率最低的选择最终将被淘汰,但随之而来的是,它们可能会留下一种谅解,否则我们就无法实现这一点。智能系统的效率和能力是两个不同的目标,限制对一个目标和另一个目标的探索的任何争论都来自于过度投资和推断当前技术的局限性。

尽管有电动剃须刀般的能效,但人脑有一些非常大的参数模型所超越的极限(即使这在今天是不可靠的)。我想要生活的未来是,人类的大脑被增强了能力,在我撰写这篇文章的时候,这些能力对我来说似乎是陌生的,通过第二个大脑,它做事情的方式与我们湿润的大脑有很大的不同。

致谢:非常感谢梅勒妮·米切尔、叶仁浩和克里斯蒂安·斯特拉特对这本书早期草稿的评论。

@misc{Clarity:骑行-硬件-彩票,作者={Delip Rao},标题={骑硬件彩票!},如何发布={\url{https://pagestlabs.com/clarity/ride-hardware-lottery}},月={11},年份={2020}}