Amazon EC2 P4D实例

2020-11-03 14:21:20

借助最新一代NVIDIA A100张量核心GPU,每个Amazon EC2 P4D实例提供的深度学习性能比上一代P3实例平均提高2.5倍。P4D实例的EC2 UltraClusters使日常开发人员、数据科学家和研究人员能够运行他们最复杂的ML和HPC工作负载,方法是无需任何前期成本或长期承诺即可获得超算级别的性能。使用P4D实例减少的培训时间提高了生产力,使开发人员能够专注于将ML智能构建到业务应用程序中的核心任务。

借助P4D实例的EC2 UltraClusters,开发人员可以无缝扩展到多达数千个GPU。高吞吐量、低延迟网络以及对400 Gbps实例网络、弹性交换矩阵适配器(EFA)和GPUDirect RDMA技术的支持,有助于使用横向扩展/分布式技术快速训练ML模型。弹性交换矩阵适配器(EFA)使用NVIDIA集合通信库(NCCL)扩展到数千个GPU,GPUDirect RDMA技术可实现P4D实例之间的低延迟GPU到GPU通信。

与P3实例相比,Amazon EC2 P4D实例可提供高达60%的ML模型培训成本。此外,P4D实例可作为Spot实例购买。Spot实例利用未使用的EC2实例容量,可大幅降低您的Amazon EC2成本,按需价格最高可享受90%的折扣。由于使用P4D实例进行ML培训的成本较低,因此可以重新分配预算,以便将更多ML智能构建到业务应用程序中。

深度学习AMI和深度学习容器可以在几分钟内轻松部署P4D深度学习环境,因为它们包含所需的深度学习框架、库和工具。您还可以轻松地将您自己的库和工具添加到这些映像中。P4D实例支持流行的ML框架,如TensorFlow、PyTorch和MXNet。此外,针对ML、管理和协调的主要AWS服务(如Amazon SageMaker、Amazon Elastic Kubernetes Service(EKS)、Amazon Elastic Container Service(ECS)、AWS Batch和AWS ParallelCluster)均支持Amazon EC2 P4D实例。

NVIDIA A100张量核心图形处理器可为ML和高性能计算(HPC)提供前所未有的大规模加速。NVIDIA A100的第三代张量芯加速了每一项精密工作,缩短了洞察时间和上市时间。与上一代V100 GPU相比,每款A100 GPU的计算性能都提高了2.5倍以上,并配备了40 GB的高性能HBM2 GPU内存。NVIDIA A100 GPU利用NVSwitch GPU互连吞吐量,因此每个GPU都可以与同一实例中的所有其他GPU以相同的600 Gb/s双向吞吐量和单跳延迟进行通信。

P4D实例提供400 Gbps网络,以帮助客户更好地横向扩展其分布式工作负载,例如通过P4D实例之间以及P4D实例与Amazon S3和FSX for Lustre等存储服务之间的高吞吐量网络更高效地进行多节点培训。弹性交换矩阵适配器(EFA)是由AWS设计的自定义网络接口,可帮助将ML和HPC应用扩展到数千个GPU。为了进一步降低延迟,EFA与NVIDIA GPUDirect RDMA结合使用,以实现服务器之间绕过操作系统的低延迟GPU到GPU通信。

客户可以使用FSX for Lustre访问PB级高吞吐量、低延迟存储,也可以使用Amazon S3以400 Gbps的速度访问几乎无限的经济高效存储。对于需要快速访问大型数据集的工作负载,每个P4D实例还包括8 TB基于NVMe的固态硬盘存储,读取吞吐量为16 GB/秒。

P4D实例构建在AWS Nitro系统之上,该系统是一个丰富的构建块集合,可将许多传统虚拟化功能卸载到专用硬件和软件,以提供高性能、高可用性和高安全性,同时降低虚拟化开销。

丰田研究院(TRI)成立于2015年,正致力于为丰田开发自动驾驶、机器人和其他人类放大技术。

“在TRI,我们正在努力建设一个每个人都可以自由行动的未来,”TRI基础设施工程技术主管迈克·加里森(Mike Garrison)说。上一代P3实例帮助我们将训练机器学习模型的时间从几天减少到几个小时,我们期待着利用P4D实例,因为额外的GPU内存和更高效的浮点格式将允许我们的机器学习团队以更快的速度训练更复杂的模型。";

GE Healthcare是全球领先的医疗技术和数字解决方案创新者。GE Healthcare通过其爱迪生智能平台支持的智能设备、数据分析、应用程序和服务,使临床医生能够更快、更明智地做出决定。

人工智能副总裁兼总经理卡利·约德(Karley Yoder)表示:“在GE Healthcare,我们为临床医生提供工具,帮助他们聚合数据,将人工智能和分析应用于这些数据,并发现能够改善患者结果、提高效率和消除错误的洞察力。”我们的医学成像设备产生大量数据,需要我们的数据科学家进行处理。使用以前的GPU群集,训练复杂的AI模型(如Progative Gans)进行模拟和查看结果需要几天时间。使用新的P4D实例将处理时间从几天减少到几个小时。我们看到不同图像大小的训练模型的速度提高了两到三倍,同时通过增加批量大小和更快的模型开发周期实现了更好的性能和更高的生产率。“。

OmniSci是加速分析的先驱。OmniSci平台用于商业和政府部门,以发现主流分析工具所不具备的数据洞察力。

在Omnisci,我们正在努力建设一个数据科学和分析相结合的未来,以打破和融合数据孤岛。客户正在利用他们的海量数据(可能包括位置和时间),通过时空数据的精细可视化,不仅构建正在发生的事情的全貌,而且构建时间和地点的全貌。我们的技术可以同时看到森林和树木。“。Omnisci美国公共部门副总裁赛义德(Ray Falcione)说。通过使用Amaon EC2 P4D实例,与上一代GPU实例相比,我们能够大幅降低部署我们平台的成本,从而使我们能够经济高效地扩展海量数据集。A100的网络改进提高了我们扩展到数十亿行数据的效率,并使我们的客户能够更快地收集见解。“。

Zenotech Ltd正在通过使用HPC云重新定义在线工程,通过利用GPU提供按需许可模型和极高的性能优势。

在Zenotech,我们正在开发工具,使设计师能够创造更高效、更环保的产品。我们跨行业工作,我们的工具通过使用大规模模拟提供更好的产品性能洞察力。“。Zenotech董事贾米尔·阿帕(Jamil Appa)说。Amazon EC2 P4D实例的使用使我们的模拟运行速度比上一代GPU快3.5倍。这使我们能够在全美范围内更快、更准确地诊断,并更容易获得放射学服务。“

怡安是一家全球领先的专业服务公司,提供广泛的风险、退休和健康解决方案。怡安路径是一款基于GPU且可扩展的HPC风险管理解决方案,保险公司和再保险公司、银行和养老基金可以使用它来应对当今的关键挑战,如对冲策略测试、监管和经济预测以及预算。Pathwise总裁兼首席执行官彼得·菲利普斯说:“怡安路径允许(再)保险公司和养老基金获得下一代技术,以迅速解决当今的关键保险挑战,如对冲策略测试、监管和经济预测以及预算。

通过使用具有2.5petaflops混合精度性能的Amazon EC2 P4D实例,我们能够在不降低性能的情况下将成本降低两倍,并且可以将最苛刻的计算速度提高2.5倍。速度很重要,多亏了AWS的新实例,我们继续让我们的客户感到高兴。“。

由放射学和人工智能专家组成的Rad AI开发的产品可以最大限度地提高放射科医生的生产力,最终使医疗保健更广泛地获得,并改善患者的结果。

在Rad AI,我们的使命是提高每个人获得医疗保健的机会和质量。Rad AI专注于医学成像工作流程,为放射科医生节省了时间,减少了倦怠,并提高了准确性,“Rad AI的联合创始人Doktor Gurson说。“我们使用人工智能来自动化放射工作流程,并帮助简化放射报告。在新的EC2P4D实例中,我们看到了比上一代P3实例更快的推理速度和更快的训练模型速度2.4倍的能力,并且具有更高的准确性。这使我们能够更快、更准确地诊断,更容易获得我们在美国各地的客户提供的高质量放射服务。“。

*-显示的价格为美国东部(北弗吉尼亚州)AWS地区的Linux/Unix价格,四舍五入为最接近的美分。有关完整的定价详细信息,请参阅Amazon EC2定价页面。

Amazon EC2 P4D实例在美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)地区提供。客户可以购买P4D实例作为按需实例、预留实例、Spot实例、专用主机或节约计划的一部分。

Amazon SageMaker是用于构建、培训和部署ML模型的完全托管服务。当与Amazon EC2 P4D实例配合使用时,客户可以轻松扩展到数十、数百或数千个GPU,以快速训练任何规模的模型,而无需担心设置群集和数据管道。

AWS Deep Learning AMI(DLAMI)为ML从业者和研究人员提供基础设施和工具,以加速云中任何规模的深度学习。AWS Deep Learning Containers是预装了深度学习框架的Docker映像,让您可以跳过从头开始构建和优化环境的复杂过程,从而轻松快速地部署自定义ML环境。

喜欢通过容器编排服务管理自己的集装箱化工作负载的客户可以使用Amazon EKS或ECS部署Amazon EC2 P4D实例。

Amazon EC2 P4D实例是运行工程模拟、计算金融、地震分析、分子建模、基因组学、渲染和其他基于GPU的高性能计算(HPC)工作负载的理想平台。HPC应用程序通常需要高网络性能、快速存储、大容量内存、高计算能力或以上所有功能。P4D实例支持弹性交换矩阵适配器(EFA),使使用消息传递接口(MPI)的HPC应用程序能够扩展到数千个GPU。AWS Batch和AWS ParallelCluster使HPC开发人员能够快速构建和扩展分布式HPC应用程序。