一个悬而未决的问题是,当你有能力构建变革性的人工智能已经有很长一段时间了,但你没有,因为没有人意识到这是可能的。那么就有人这么做了,让你大吃一惊!它的能力比每个人预想的都要强得多。
我担心我们现在正处于悬而未决的境地。我认为我们现在有能力建立一个比我们已经拥有的更强大的数量级的系统,我认为GPT-3是谷歌和Facebook等公司100倍以上项目的触发器,时间表以月为单位。
GPT-3是第一个具有明显、直接、实质性经济价值的NLP系统。虽然关于它比典型的NLP研究项目贵了多少,人们已经大做文章,但在更广泛的大型企业投资背景下,这是微不足道的。
据估计,GPT-3的计算机培训成本为500万美元,从作者名单和OpenAI的总体规模来看,可能还需要另外1000万美元的劳动力。
谷歌(Google)、亚马逊(Amazon)和微软(Microsoft)每年各投入约200亿美元用于研发,另外各投入约200亿美元用于资本支出。非常粗略地说,每年的总金额约为1000亿美元。因此,现在将GPT再提高100倍,损失10亿美元或更多是完全有可能的。所有这些需要的是,科技高管不再把NLP视为可爱的蓝天研究,而是开始从季度到盈利的角度进行思考。
一个具体的例子是Waymo,它正在进行20亿美元的几轮投资--这是一项通往市场的道路更长的技术的投资。
事情的另一面是计算成本。500万美元的GPT-3培训成本估计来自于以10k美元/台和30TFLOPS的价格使用V100,这是在不考虑张量核心的情况下的性能。摊销超过一年,这给你大约1000美元/pflops-d。
但在那里,NVIDIA的垄断云合同将价格推高了一个数量级,而忽略张量核心,只看一般的计算性能,就会导致性能下降。在这里,价格被NVIDIA的垄断云合同推高了一个数量级,而性能则被忽略了张量核心,只看了一般的计算性能。目前的硬件底价更接近RTX 2080TI';125张量核心TFLOPS的1000美元/台,这给你提供了25美元/pflops-d。这与AI Impact&39;目前的估计大致一致,并提供了另一个>;10倍的加速。
我强烈怀疑其他瓶颈会阻止你达到那样的效率,或者GPT-3会更早发生,但我仍然认为这是一个有用的界限。
到目前为止,我一直把重点放在钱上,因为目前3.5个月翻了一番的时间大部分来自于增加投资。但撇开资金不谈,还有其他几件事可能会被证明是约束性约束。
可用的芯片数量。从上面的估计来看,GPT-3大约有500个GPU年,或者-基于一年的培训窗口-价值500万美元的V100,每架10k美元。这约占NVIDIA数据中心季度销售额的1%。多家公司的100倍规模可能会使这一点饱和。
比例法则崩溃。GPT系列的扩展预计将分解到10000个Pflops-天(§6.3),这与桌面上的现金数量还有很长一段路要走。
顺便说一句,虽然这篇文章没有提到这一点,但我觉得这可能是因为缩放分析是在1024个令牌序列上进行的。也许更长的序列可以走得更远。更有可能是我误解了什么。
数据可用性限制。同一篇论文中,数据集大小相当于计算的平方根;10万亿个训练数据令牌之后的GPT-3将大1000倍。
这完全在人类的能力范围内,一旦你决定它是有用的东西,聚集到一个地方应该不难。因此,如果这份报告具有约束力,我会感到惊讶。
商品化。如果许多公司都去追求巨大的NLP模式,那么每家公司可以提取的利润就会被驱使到零。与其他资本支出较高的研究(如制药)不同,训练有素的模型没有知识产权保护。如果你预计利润微乎其微,你就不太可能在自己的培训项目上投入10亿美元。
我怀疑这是一个重要的因素,因为有很多遗留的、人为驱动的系统需要取代。这一转变应该足以为许多公司的研究项目提供资金。从长远来看,这可能更重要。
推理成本。GPT-3论文(§6.3)给出了0.4千瓦时/100页的输出,通过观察硬件成本相当于5倍的电力,计算出500页/美元。放大1000倍,你的价格是每页2美元,这比人类便宜,但不再那么容易试验了。
带宽和延迟。500台V100联网是一回事,500K V100完全是另一回事。
我对分布式培训知之甚少,无法说这是一个非常明智的约束还是非常愚蠢的约束。我认为这有可能是一个严重的问题,但我认为这也是一种你可以围绕着设计算法的东西。然而,这似乎不会在几个月的时间内得到解决。
序列长度。GPT-3一次使用2048个令牌,这是一种高效的编码,在许多任务中都会削弱它。对于朴素的体系结构,增加序列长度的代价是平方的,而且不太可能达到新的长度。
但有很多看似合理的方法来解决这个问题,再说一次,复杂性与人工智能相比。然而,这似乎也不可能在几个月的时间范围内得到解决。
总而言之,目前的科技投资在短期内似乎支持再扩大100倍至1000倍的规模。如果我们达到1000x-1 zettaflops(天)和10亿美元一次,那么就有几条路可走。
我认为关键问题是,到1000倍的时候,模型是否明显优于人类,而不是广泛的经济活动。如果是这样的话(我认为这是可能的),那么进一步的投资将通过通常的市场机制到来,直到最大的模型被分配到全球GDP的很大一部分为止。
从理论上讲,这为再扩大1000倍留下了空间,因为它将达到1万亿美元,尽管目前的市场机制并不能真正达到这样的投资规模。让市场按原样行事,我认为商品化将作为约束性约束开始发挥作用。
不过,这是从今天的市场角度来看的。变革性的人工智能可能会让市值达到100万亿美元的公司脱颖而出,或者民族国家可以接过火炬。阿波罗计划为今天的GDP贡献了1万亿美元的份额。
更极端的方法是,如果到1000倍的时候,你已经有了可以设计更好的算法和更好的硬件的东西。然后,我认为我们掌握在克里斯蒂亚诺缓慢起飞的四年GDP翻番的手中。
不过,这些都是假设业绩继续改善的前提。如果到1000倍时,这种模式显然不是人类至高无上地位的挑战者,那么事情有望放缓到2010年代老式的摩尔定律(Moore‘s Law)的进步速度,我们可以放心地投入到只不过是超级谷歌(HyperGoogle)的怀抱中。