目前,在AWS俚语中只有一个大小,即p4d.12xLarge实例,8个A100 GPU通过NVIDIA的NVLink通信接口连接,也支持该公司的GPUDirect接口。
拥有320 GB高带宽GPU内存和400 Gbps网络,这显然是一台非常强大的机器。再加上96个CPU核心、1.1TB系统内存和8TB SSD存储,按需价格为每小时32.77美元可能就不足为奇了(尽管一年期预留实例的价格降至每小时不到20美元,三年期预留实例的价格为11.57美元。
在极端情况下,您可以将4,000个或更多GPU组合到一台EC2 UltraCluster(AWS称之为这些机器)中,从而在本质上是超级计算机规模的机器上实现高性能计算工作负载。考虑到价格,你不太可能在短期内推出这样的集群来培训你的玩具应用程序的模型,但AWS已经与许多企业客户合作测试这些实例和集群,包括丰田研究院、通用电气医疗保健和怡安。
“在(丰田研究院),我们正在努力建设一个每个人都可以自由行动的未来,”TRI基础设施工程技术主管迈克·加里森(Mike Garrison)说。上一代P3实例帮助我们将训练机器学习模型的时间从几天减少到几个小时,我们期待着利用P4D实例,因为额外的GPU内存和更高效的浮点格式将使我们的机器学习团队能够以更快的速度训练更复杂的模型。“