NVIDIA在三周内建造了美国最强大的工业计算机

2020-08-15 14:09:11

在全球大流行期间,在不到一个月的时间里,一个小团队组装了世界第七快的计算机。

今天,这个名为Selene的巨型系统在Slake上与操作员通信,拥有自己的机器人服务员,并正在推动人工智能在汽车、医疗保健和自然语言处理领域向前发展。

虽然许多超级计算机采用了异国情调的专有设计,这些设计需要几个月的时间才能投入使用,但Selene是基于NVIDIA与客户共享的开放式架构。

芝加哥郊外的阿贡国家实验室正在使用一个基于Selene的DGX超级吊舱设计的系统来研究阻止冠状病毒的方法。佛罗里达大学将利用该设计建造学术界速度最快的人工智能计算机。

DGX超级舱正在推动大陆汽车(Continental)、洛克希德·马丁(Lockheed Martin)在航空航天和微软(Microsoft)等公司在云计算服务领域的业务业绩。

NVIDIA工程师出于两个动机开始了他们的第一个系统级设计。他们想要建立一些既强大到足以训练他们的同事正在为自动驾驶汽车构建的人工智能模型,又足够通用的东西,足以服务于任何深度学习研究人员的需求。

结果是SATURNV集群,诞生于2016年,基于NVIDIA Pascal GPU。一年后,当更强大的NVIDIA Volta GPU首次亮相时,这个萌芽中的系统团队的动机和设计迅速扩大。

领导该系统团队的首席架构师迈克尔·休斯顿(Michael Houston)说,“我们正试图根据从研究人员那里听到的信息来预测未来会发生什么,我们会建造多用途、使用寿命长的机器,尽可能多地压缩处理器、内存和存储空间,”领导该系统团队的首席架构师迈克尔·休斯顿(Michael Houston)说。

他说,早在2017年,“我们就开始看到新的应用程序推动了对多节点培训的需求,需要在系统之间进行非常高速的通信,并访问高速存储。”

人工智能模型正在快速增长,需要多个GPU来处理它们。工作负载需要新的计算方式(如模型并行性)才能跟上步伐。

因此,团队很快相继制作了越来越大的基于V100的NVIDIA DGX-2系统集群,称为DGX Pod。他们使用了32个节点,然后是64个DGX-2节点,最终形成了名为DGX SuperPod的96节点架构。

他们把它命名为Circe,以纪念不可抗拒的希腊女神。它于2019年6月首次亮相,在全球最快超级计算机TOP500排行榜上排名第22位,目前排名第23位。

在此过程中,团队学到了有关网络、存储、电力和散热的经验教训。这些经验被融入到最新的NVIDIA DGX系统、参考架构和今天的280节点SELENE中。

在穿越越来越大的星系团到达切尔斯的比赛中,一些教训来之不易。

“我们把所有东西都拆了两次,我们真的切断了电缆。这是最快的前进方式,但它仍然有大量的停机时间和成本。因此,我们发誓再也不会这样做了,并将易于扩展和逐步部署作为一项基本的设计原则。“休斯顿说。

他们定义了由相对简单的“瘦交换机”连接的20个节点的模块。这些所谓的可伸缩单元中的每一个都可以一成不变地放在一起,在添加下一个单元之前打开并进行测试。

该设计允许工程师指定电缆的固定长度,这些电缆可以在工厂与尼龙搭扣捆绑在一起。可以对机架进行标记和映射,从而从根本上简化了向机架填充数十个系统的过程。

早些时候,该团队学会了将计算、存储和管理结构拆分成独立的平面,将它们分布在更多、更快的网络接口卡上。

网卡和GPU的比例翻了一番,达到1:1。他们的速度也增加了,从Circe的每秒100Gbit InfiniBand到Selene的200g HDR InfiniBand。结果是有效节点带宽增加了4倍。

同样,内存和存储链路的容量和吞吐量也有所增加,以处理具有热、热和冷存储需求的作业。四个存储层跨越100 TB/秒的内存链路,连接到100 GB/s的存储池。

电力和热量保持在风冷限制内。默认设计使用租赁数据中心的典型35kW机架,但对于最激进的超级计算机中心,它们可以延伸到50kW以上,甚至可以延伸到某些电信公司使用的7kW机架。

最终结果是可以处理当今许多不同工作负载的更加平衡的设计。这种灵活性也给了研究人员在人工智能和高性能计算领域探索新方向的自由。

“在某种程度上,HPC和AI都需要最高性能,但你必须仔细考虑如何在电力、存储和网络以及原始处理方面提供这种性能,”朱莉·伯恩奥尔(Julie Bernauer)说,她领导着一个高级开发团队,负责NVIDIA的所有大型系统。

在大流行袭击的几天内,第一批NVIDIA安培架构GPU到达,工程师们面临着组装280节点SELENE的工作。

在最好的情况下,几十名工程师可能需要几个月的时间来组装、测试和调试一个超级计算机级的系统。NVIDIA必须在几周内让Selene运行,才能参与行业基准,并履行对像Argonne这样的客户的义务。

伯诺尔说:“我们有一些骨干人员,他们有严格的协议来保持工作人员的健康。”

“为了拆箱和装架系统,我们使用了两个人的团队,他们没有和其他人混在一起-他们甚至在同一时间休假。我们做了人与人之间6英尺距离的布线。这确实改变了你构建系统的方式,“她说。

即使有COVID的限制,工程师们一天也要安装多达60个系统,这是他们的装货码头所能处理的最大数量。通过虚拟登录,管理员可以远程验证布线,并在部署20节点模块时对其进行测试。

伯纳德的团队将几个层面的自动化放在了适当的位置。这减少了对Selene所在的代管设施的人员需求,该设施距离NVIDIA的硅谷总部只有一个街区。

Selene通过Slake频道与员工交谈,就像她是同事一样,报告松散的电缆并隔离故障硬件,以便系统可以继续运行。

伯纳德说:“我们不想在夜里醒来,因为星团有问题。”

如果客户遵循DGX POD和SuperPod体系结构中的指导,这是他们可以访问的自动化的一部分。

例如,多亏了这种方法,佛罗里达大学(University Of佛罗里达)预计将对其HiPerGator系统进行140个节点的扩展,并在收到后短短10天内启动学术界最强大的人工智能超级计算机。

作为补充,NVIDIA团队从Double Robotics购买了一个远程呈现机器人,这样躲在家里的非必要设计师可以与Selene保持日常联系。他们开玩笑说,考虑到早期担心现场的主要技术人员可能会撞到它,他们将其称为旅行。

这趟旅行是由NVIDIA Jetson TX2模块提供动力的,这一事实增加了团队成员的吸引力,他们想象有一天他们可能会修改它的编程。

自7月下旬以来,Trip一直被定期使用,让他们虚拟地开车穿过Selene的过道,通过机器人的摄像头和麦克风观察系统。

她说:“Trip不会取代人工操作员,但如果你在凌晨2点担心什么事情,你可以在不开车去数据中心的情况下进行检查。”

今年6月,Selene在TOP500排行榜上排名第7,在绿色500最节能系统排行榜上排名第2。今年7月,在最新的MLPerf基准中,它打破了人工智能培训性能的所有8个系统测试的纪录。

休斯顿说:“让我大吃一惊的是,考虑到我们使用的是新的处理器和主板,一切都进展得如此顺利,我相信一路走来的所有测试都是如此顺利。”“启动这台机器,进行一系列背靠背的硬性基准测试,给了团队巨大的提振,”他补充道。

为Argonne预测试NGC容器和HPC软件的工作更令人欣慰。该实验室已经在研究蛋白质对接和量子化学方面的难题,以揭示冠状病毒。

另外,Circe将其许多免费自行车捐赠给Folding@Home倡议,以对抗COVID。

与此同时,NVIDIA自己的研究人员正在使用Selene训练自动驾驶汽车,并改进对话式人工智能,预计他们很快就会报告进展情况。到目前为止,系统上运行的1000多个作业通常是同时运行的,它们就是其中之一。

与此同时,团队已经在白板上有了下一步的想法。伯纳德说:“给痴迷于性能的工程师足够的马力和电缆,他们会想出令人惊叹的事情。”