NVIDIA GeForce RTX 3090上的基准TensorFlow

2020-09-30 00:21:31

NVIDIA最近发布了备受期待的GeForce RTX 30系列显卡,其中最大、最强大的RTX 3090拥有24 GB内存和10,500个CUDA内核。这是对2018年24 GB RTX Titan的自然升级,我们渴望将最新GPU的培训性能与采用现代深度学习工作负载的Titan进行基准测试。

仅从规格来看,3090RTX在CUDA内核数量上有了很大的改进,这应该会让我们在FP32任务上有一个很好的速度。然而,NVIDIA决定减少GA102中的张量核心数量(与A100卡中的GA100相比),这可能会影响FP16的性能。

使用最新版本的CUDA(11.1)和最新的TensorFlow非常重要,在撰写本文时,TensorFloat等一些功能还没有稳定发布。

我们使用我们自己的Lambda TensorFlow基准测试分支,它测量了在ImageNet上训练的几个深度学习模型的训练性能。

我们能够实现1.4-1.6倍的培训速度为所有模型的FP32培训!正如预期的那样,FP16没有那么重要,大多数型号的加速速度是1.0-1.2倍,而“盗梦空间”的速度有所下降。