看看AI筹码的演变以及他们所在的地方,因为谷歌,亚马逊,GraphCore和脑脑等公司来看待NVIDIA的主导地位

2021-06-20 17:30:46

有一个关于nvidia如何从游戏和图形硬件枢转以支配ai芯片的障碍故事 - 它涉及猫。返回2010年,比尔号码,NVIDIA的首席科学家们正在与斯坦福大学的一位前同事一起吃早餐,计算机科学家安德鲁NG正在与谷歌的项目一起工作。 “他正试图在互联网上找到猫 - 他没有那样地把它放在那里,但这就是他在做的事情上,”Dally说。

NG正在在一个项目的Google X实验室工作,建立一个可以自己学习的神经网络。神经网络被示出了一千万YouTube视频,并学习了如何挑选人的面孔,身体和猫 - 但要准确地进行,系统需要数千个CPU(中央处理单元),这是功率计算机的工作主流处理器。 “我说,'我打赌我们可以只用几个GPU来做到这一点,”“Dally说。 GPU(图形处理单元)专门用于更强烈的工作负载,如3D渲染 - 这使得它们比Pofting AI在CPU更好。

Dally转向Bryan Catanzaro,他现在在NVIDIA领导深入学习研究,使其发生。他做到了 - 只需12个GPU - 证明GPU提供的并行处理在培训NG的CAT识别模型时比CPU更快,更高效。

但是,卡塔扎罗希望据悉,NVIDIA没有因为这是机会早餐而开始与AI的努力。事实上,他一直在为伯克利仍然是伯克利的毕业生而发展的GPU,然后在2008年加入NVIDIA之前。“NVIDIA在这个市场的立场不是一个意外,”他说。

现在,NVIDIA占据了AI筹码,何时似乎不重要。 NVIDIA的主要收入流是Jensen Huang的1993年1993年,仍然是图形和游戏,但对于最后财政年度,GPU的销售额用于数据中心的销售额为67亿美元。 2019年,NVIDIA GPU在97.4%的AI加速器实例中部署 - 用于提升处理速度的硬件 - 在前四个云提供商:AWS,Google,Alibaba和Azure。 Karl Freund,Cambrian AI研究的分析师Karl Freund表示,它命令“近100%”培训AI算法。近500个超级计算机的近似70%使用其GPU。几乎所有AI里程碑都发生在NVIDIA硬件上。 NG的YouTube Cat Finder,DeepMind的棋盘游戏冠军alphago,Openai的语言预测模型GPT-3全部在NVIDIA硬件上运行。这是一个研究人员的地面。

尽管如此,Catanzaro仍然受到持续建议的困扰,即NVIDIA盲目地撞到游戏中的AI。 “我发誓,几乎我读到的每个故事都是,叙述是,GPU随意碰巧在AI的优势,通过将现有筹码销售到一个新的市场,NVIDIA幸运入临时意外收获,很快他们将被移位“初创公司,”Catanzaro说。 “但是NVIDIA一直在战略性地了解它是如何在现在终止AI市场的战略性。”

十年来,那个市场对中断成熟。 AI开始被越来越多的企业使用,以了解他们收集的数据海洋,而政府将钱泵入深入学习的研究,以保持彼此之外。美国和中国之间的比赛特别热; Deloitte分析师Costi Perricos说,AI将成为国家竞争的“下一个超级大国”。与此同时,深度学习模型的尺寸和复杂性越来越大,需要更多的计算能力。

Openai的GPT-3,一个可以写出明智文本段落的深层学习系统,是极端的例子,由1750亿参数组成,弥补模型的变量。它估计为460万美元来计算,这是由于谷歌语言模型,其中谷歌语言模型为1.6万亿参数。需要更高效的硬件来咀嚼更多参数和更多数据,以提高准确性,但也可以让AI成为更多的环境灾难 - 丹麦研究人员计算出培训GPT-3所需的能量可能具有碳足迹700,000km。

我们需要更多的ai芯片,我们需要更好的ai芯片。虽然NVIDIA的早期工作已经给予GPU制造者,但挑战者正在赶上来赶上。谷歌开始在2015年开始自己的筹码;在购买2016年购买Annapurna Labs之后,亚马逊去年开始将Alexa的脑袋转移到自己的推位芯片;百度有昆仑,最近价值20亿美元;高通公司有云AI 100; IBM正在研究节能设计。 AMD收购了Xilinx for AI数据中心工作,英特尔在2019年增加了AI加速度的Xeon数据中心CPU;它还在2016年购买了两项初创公司,为2019年的4.08亿美元和Habana Labs的20亿美元。尚未抢购的初创公司已发布自己的硬件,过去几年看到艾芯片释放或试验到Graphcore,Sambanova,脑,MythiC AI,Blaize和Tonstorrent。

我们仍然在AI的早期。那些猫只计算十年前;这些初创公司中的大多数都不超过几年。通过更多的数据集流量作为智能物联网设备来开始机器到机器革命,所有这些都会在同一件事上设置了他们的视图:拥有AI芯片的未来。

机器学习是一个计算工作负载与其他任何其他,需要大量的数学,而不是非常精确的数字。传统的高性能计算(HPC),其中多个系统链接在一起,以构建超级计算机以处理复杂的工作负载,如科学模拟或金融建模,需要高精度数学,如果不高,使用64位数字使用64位数字。 AI计算还需要大量的计算基础架构,但使用的数学不太精确,数字为16位甚至8位 - 它类似于80s的超现实图形和像素化游戏之间的差异。 “数学大多是容易的,但是有很多东西,”AI芯片初学者的首席执行官Andrew Feldman说。

AI芯片是通过编程框架(如Google)Tensorflow和Facebook的Pytorch等程序进行了优化以运行机器学习工作负载的任何处理器。 AI筹码不一定在培训或运行深度学习模型时完成所有工作,但通过快速搅拌最强烈的工作负载来运行作为加速器。例如,NVIDIA的AI-System-in-a-box,DGX A100使用其自己的八个A100“安培”GPU作为加速器,还具有128核心的AMD CPU。

AI不是新的,但我们以前缺乏计算能力来制作深度学习模型,让研究人员等待硬件以赶上他们的想法。 “GPU进来并打开了门,”Sambanova的联合创始人兼首席执行官Rodrigo Liang说,另一个启动AI筹码。

2012年,在多伦多大学的一名研究员Alex Krizhevsky,在年度Imageenet计算机视觉挑战中勾选了其他竞争对手,该挑战赛彼此彼此追捕,以开发可以识别它们内部图像或物体的算法。 Krizhevsky使用了GPU的深度学习,首次击败了手工编码的努力。到2015年,Imagenet比赛的所有最高结果都使用GPU。

深度学习研究爆炸了。 Nvidia的技术提供了20倍或更多的性能提升,即在英国芯片启动GraphCore的联合创始人设置商店时,他们无法与投资者开会。 “我们从VCS听到的是:'什么' s ai?'”联合创始人和CTO西蒙知识,回顾加州旅行,在2015年寻求资金。“这真的很奇怪。”几个月后,在2016年初,这一切都改变了。 “那么,每个人都对AI很热,”诺尔斯说。 “然而,他们对芯片不热。”新的芯片架构未被视为; Nvidia有这个行业覆盖。

GPU,IPU,RPU - 它们都被用来通过数据集进行深入学习,但名称确实反映了架构的差异。

GraphCore的Colossus MK2 IPU与独立操作的处理器大量平行,一种称为多个指令,多个数据的技术。软件是顺序编写的,但神经网络算法需要立即完成一切。为了解决这个问题,一个解决方案是放置所有数据及其约束,如声明问题的结构,GraphCore CTO Simon Knowles说。这是一个图 - 因此他公司的名字。

但是,在2016年5月,谷歌改变了一切,与脑海尔德曼呼吁“滑块战略决定”,宣布它开发了为AI应用程序开发了自己的筹码。这些称为张量处理单元(TPU),并设计与公司的TensoRFlow机器学习编程框架合作。 Knowles表示,此举向投资者发送了一个信号,也许可能有新的处理器设计市场。 “突然间,所有的VC都喜欢:那些疯狂的英国人在哪里?”他说。从那时起,格雷戈尔已经筹集了7.1亿美元(5.15亿英镑)。

Nvidia的竞争对手认为,GPU是为图形而不是机器学习设计的,尽管它们的大量加工能力意味着它们比AI任务的CPU更好地工作,但由于仔细的优化和复杂的软件层,他们的市场优势仅持续了这一点。 “NVIDIA已经做了一个神话般的工作隐藏了GPU的复杂性,”GraphCore联合创始人和首席执行官Nigel Toon说。 “它是由于它们创建的软件库,框架和允许隐藏复杂性的优化。 NVIDIA在那里进行了一个非常沉重的举起工作。“

但忘记了GPU,参数出现,而且您可能会从头划痕设计AI芯片,具有完全新的架构。有很多可供选择。谷歌的TPU是特定于应用的集成电路(ASIC),专为特定工作负载设计;脑脑制成晶圆级发动机,这是一个比任何其他人大的56倍; IBM和Brainchip制作神经胸部,在人脑上建模;而Mythic和Graphcore都制作智能处理单元(IPU),尽管他们的设计有所不同。有更多更多。

但是Catanzaro认为许多筹码只是AI加速器的变化 - 所以给予任何促进AI的任何硬件的名称。 "我们谈论GPU或TPU或IPU或其他任何东西,但人们也依附于这些字母,"他说。 “我们称之为我们的GPU,因为我们所做的历史......但GPU一直是关于加速计算的,而且人们关心的工作负载的性质是在助焊剂中。”

有人可以竞争吗? NVIDIA主导了核心基准,MLPERF,这是深度学习筹码的黄金标准,尽管基准是棘手的野兽。分析师Karl Freund Cambrian AI研究说明,由包括谷歌(包括Google)的学者和行业参与者设计的基准工具Mlperf由Google和Nvidia主导,但初创公司通常不会打扰完成所有内容,因为建立A的成本系统在别处度过更好。

NVIDIA确实打扰 - 并且每年最好的谷歌的TPU。 “谷歌发明了MLPERF,展示了他们的TPU有多好,”NVIDIA的解决方案建筑和工程负责人Marc Hamilton说:Jensen [Huang]说如果我们每次都展示谷歌,他们每次都跑了Mlperf基准如何如何我们的GPU比TPU快一点。“

为了确保它在一个版本的基准测试中出现,NVIDIA将一个内部超级计算机从36 DGX框升级到往返96.需要重新启动整个系统。为了快速做到这一点,他们只是通过电缆切割 - 汉密尔顿说的是价值大约一百万美元的套件 - 并且已经发货了新的设备。这可能有助于突出由基准推动的邦克行为,但它也激发了重新设计DGX:现在可以在20个组合的情况下组合20个,而无需任何重新定位。

谈到基准和超级计算机时,您可以随时添加更多芯片。但对于AI计算的另一边 - 在边缘所谓的推论 - 这是一个不同的故事。

NVIDIA在2020年抓住了世界的注意力,英国筹码设计师400亿美元,其建筑为世界智能手机的95%提供了95%。但回应并不完全是积极的。 ARM联合创始人Hermann Hauser,他不再在公司工作但仍然保留股票,称为可能会破坏市场上的“灾难”。世界各地的监管机构 - 在欧盟,英国,中国和美国 - 密切研究该交易。

ARM设计筹码,为公司提供许可,以便在他们看到适合时使用。如果AI芯片制造商需要用于系统的CPU,则可以从ARM授权芯片设计,并使其对其规格进行了规格。竞争对手担心的是,利用控制武器的NVIDIA可能会限制这些伙伴关系,尽管黄派曾表示,NVIDIA将尊重ARM'开放模型。据报道,据报道,英国政府审议了任何国家安全影响,虽然ARM目前由日本的软银行所拥有,但中国有担忧由美国公司拥有的,这可能意味着其设计被禁止在现有限制下出口到黑名单的中国公司。

在Cerebras,CEO Andrew Feldman意识到片上通信很快,但它们之间发生了放缓 - 所以为什么不仅仅是建立一个非常大的芯片,所以您的数据永远不会离开?脑晶圆刻度发动机克拉姆400,000核心到46.225平方毫米上。 “GPU具有正确的核心,但通信架构错误,”他说。

ARM是芯片的主要设计师,将在现实世界中应用深度学习 - 所谓的推理在边缘。这意味着这笔交易可能对市场的形状产生巨大影响; NVIDIA可以将数据中心侧与其GPU和ARM的帮助主导地位。

什么是边缘的推断? Nvidia的蜜蜂,高性能系统通过数据流失,以便培训和应用模型,但是另一个AI工作负载称为推断,这是使用训练型模型的更轻质的任务,然后解释某事 - 例如无人驾驶汽车理解它的相机看到,智能手机应用程序找到脸部的边缘,以扫描应用猫耳朵或扫描中癌症的医学成像模型。由于所需的计算能力大量,在数据中心完成培训,但可以在两个地方找到推理。

第一个也在数据中心中:当您询问Alexa或Siri一个问题时,它将返回亚马逊和Apple的服务器进行转录和响应。第二个地方推理发生在最终用户设备中,例如摄像机,汽车和智能手机 - 这称为边缘计算。这需要更少的处理能力,但需要快速(没有人想在决定是否制动之前思考他们的无人驾驶汽车)。

NVIDIA目前占据了数据中心侧的主导。它的A100通过数据进行训练,而推理虚拟化为较小的迷你服务器,允许50个或更多推理工作负载在同一硬件上同时发生。这对Tech Giants提供了像AWS作为服务的AI一样,因为多个公司可以使用相同的硬件而没有数据泄漏的风险。在边缘,NVIDIA有驱动无人驾驶汽车和EGX的内部推论,但低功耗芯片不是它的传统专业 - 如果您曾使用过游戏笔记本电脑,您将注意到它需要插入它比Chromebook更定期。低功耗芯片是ARM的领域,这就是为什么NVIDIA已降低4000亿美元以获得公司。

谈到AI,ARM的努力在两个地区。首先,它将软件框架拟合到现有的CPU上。对于更强烈的工作负载,它开发了一种称为ETHOS的神经处理单元(NPU)用作加速器。 ARM的IP产品组主席Rene Haas表示,使用Ethos-U55的设备即将到来,因为许可设计的公司已经产生了硅。

在边缘与AI,语音助手将不再需要将语音上传到AWS或Apple服务器进行处理,但可以根据本地智能响应。 “它允许靠近源的工作,这在效率方面有所帮助,”Haas说,注意到通过电池电量来回向云咀嚼数据。

“我们长期谈到了IOT,但愿景到目前为止从未意识到了,”埃米亚省Emea副总裁David Hogan说。 “这是我们在我们的计划中获得武器的核心。”

虽然我们其余的美国烘焙香蕉面包和奔纹Netflix,Marc Hamilton,Marc Hamilton,Marc Hamilton,NVIDIA的解决方案建筑和工程负责人,而不是去年大部分超级计算机的大部分超级计算机,主要导航大流行造成的短缺组装剑桥-1准时。 NVIDIA的乐高风格系统更容易制作该构建。八个A100芯片构成计算系统的核心,它调用DGX - 它在运行笔记本电脑的英特尔或AMD芯片之间是相同的关系。耗资199,000美元,DGX是一个完整的AI电脑,内存和网络以及其他一切,旨在相对即插即用。剑桥-1由金属架上的机架组成,在20 dgxs的主要组合套装上,称为超级锅。

坎布里奇-1将是英国最大,最强大的AI超级计算机,汉密尔顿说(虽然排名可能会转移) - 但它只会成为NVIDIA的第五大'他自己的第五大收藏。剑桥-1是使用80 DGX A100盒子的建造,最大的Selene 560盒。

NVIDIA在英国建造了剑桥1,部分原因是手臂收购,因为买断将意味着该公司在英国获得员工。虽然它不是整体最快的最快,但剑桥1声称两个首先。汉密尔顿称之为世界上第一个云母超级计算机,因为它具有类似于AWS的划分器,让公司使用相同的硬件而没有安全漏洞或数据泄漏的风险。这让剑桥-1第一个第一次:这是NVIDIA将向外部合作伙伴开放的唯一超级计算机,让大学和医疗保健巨头Astrazeneca,牛津纳米洛博尔和GSK运行自己的深层学习模式。

为什么nvidia建立自己的超级计算机?一个原因是它需要玩具吸引最好的人。返回2016年,Nvidia没有超级计算机,Facebook和谷歌正在捕捉最佳的AI研究人员。 “这不是因为他们支付更多,”汉密尔顿说。 “这是因为谷歌和Facebook拥有数千个GPU,他们用来运行他们的业务,他们使他们能够对他们的AI研究人员提供的那些。”

Sambanova Systems的软件定义方法将数据置于前面,替换为添加和减去的整数,并使用指令过滤和减少。 Sambanova调用其设计一个可重构的数据流,并且每次“红衣主教”芯片中的1.5TB内存,其中八个在其每个DataScale SN10-8R系统中。

现在,NVIDIA的超级计算机Selene是世界上第五大,在日本之后,其中一个在中国,由美国政府拥有。这意味着,汉密尔顿说,如果你是一个想要获得最快的AI硬件的研究人员,你可以为中国,美国或NVIDIA工作。中国旨在成为AI的全球领导者于2030年,而美国希望保持其技术领先地位; AI Frower已经存在紧张,但两国最近的贸易战可能将其转化为武器比赛的某些东西。作为美国公司,NVIDIA并不完全避免此类问题。

Catanzaro的40人实验室的研究人员在NVIDIA自己的系统内使用AI,但实验室也充当了A" Terrarium"

......