NVIDIA安培A100:将规格与前一代GPU进行比较

2020-05-15 03:20:45

由于冠状病毒爆发,GTC 2020被转移到全虚拟会议,期待已久的下一代NVIDIA特斯拉GPU发布随后被推迟。然而,今天,NVIDIA首席执行官Jensen Huang的主旨演讲走上了虚拟舞台,宣布了NVIDIA全新的GPU架构Ampere,以及将使用它的首批产品。最重要的是新款特斯拉图形处理器NVIDIA A100。

NVIDIA安培架构--A100的核心是NVIDIA安培GPU架构,该架构包含超过540亿个晶体管,是全球最大的7纳米处理器。

采用TF32的张量磁芯-NVIDIA广泛采用的张量磁芯现在更灵活、更快速、更易于使用。它们的扩展功能包括新的TF32 for AI(TensorFloat),无需任何代码更改,AI性能最高可达FP32精度的20倍。此外,张量内核现在将支持FP64,提供比上一代HPC应用程序多2.5倍的计算。

多实例GPU-MIG是一项新的技术功能,可以将单个A100 GPU分区为多达七个独立的GPU,以便为不同规模的作业提供不同程度的计算,从而提供最佳利用率和最大投资回报。

第三代NVIDIA NVLink可将GPU之间的高速连接速度提高一倍,从而在服务器中提供高效的性能扩展。

结构稀疏性-这项新的效率技术利用了AI数学固有的稀疏性,将性能提高了一倍。

NVIDIA A100张量酷睿GPU实现了NVIDIA加速数据中心平台的下一个巨大飞跃,在各个规模提供无与伦比的加速,并使这些创新者能够在一生中完成他们毕生的工作。A100推动了许多应用领域,包括HPC、基因组学、5G、渲染、深度学习、数据分析、数据科学和机器人技术。

NVIDIA今天提出了下一代计算的愿景,将全球信息经济的重点从服务器转移到新一类强大、灵活的数据中心。

1)峰值速率基于GPU Boost时钟。2)A100 SM中的4个张量核的FMA计算能力是GV100 SM中8个张量核的2倍。3)使用新的稀疏功能实现有效的TOPS/TFLOPS。

人工智能模型的复杂性正在爆炸式增长,因为它们面临着更高层次的挑战,如准确的对话式人工智能和深度推荐系统。培训他们需要强大的计算能力和可扩展性。

NVIDIA A100具有张量浮点(TF32)精度的第三代张量芯在零代码更改的情况下提供比上一代高达20倍的性能,并通过自动混合精度和FP16额外提高2倍的性能。当与第三代NVIDIA®NVLink®、NVIDIA NVSwitch™、PCIGen4、NVIDIA Mellanox Infiniband和NVIDIA Magnum IO™软件SDK结合使用时,可以扩展到数以千计的A100 GPU。这意味着像Bert这样的大型人工智能模型可以在短短37分钟内在1024架A100的群集上进行培训,提供前所未有的性能和可扩展性。

A100引入了突破性的新功能来优化推理工作负载。它加速了从FP32到FP16再到INT8再到INT4的全系列精度,带来了前所未有的多功能性。多实例GPU(MIG)技术允许多个网络在单个A100 GPU上同时运行,以实现计算资源的最佳利用。结构稀疏支持在A100的其他推理性能提升的基础上提供了高达2倍的性能。

为了解开下一代的发现,科学家们希望通过模拟来更好地理解复杂分子来进行药物发现,通过物理来寻找潜在的新能源,并通过大气数据来更好地预测和准备应对极端天气模式。

A100引入了双精度张量内核,这是自用于HPC的GPU中引入双精度计算以来的最大里程碑。这使得研究人员能够将在NVIDIA V100张量核心图形处理器上运行的10小时双精度模拟减少到在A100上运行仅4小时。高性能计算应用还可以利用A100张量内核中的TF32精度,实现高达10倍的单精度密集矩阵乘法运算吞吐量。

NVIDIA还发布了最新的NVIDIA DGX A100服务器,这是世界上第一款5petaflops服务器。

NVIDIA GPU将为软件应用程序提供动力,以加速三个关键用途:管理大数据、智能推荐系统和对话式人工智能。