液冷下一代服务器通过 3 种选项进行实践

2021-08-03 00:27:09

STH 的许多读者都知道,我们一直在围绕数据中心技术的未来开展一系列活动。今天,我们将看看液冷对数据中心的影响。具体来说,我们将看看一些常见的选项,然后动手看看一些影响。事实上,我们甚至要炫耀 8 倍的 NVIDIA A100 80GB 500W GPU 性能,而这部分甚至没有被 NVIDIA 正式上市。让我们开始吧。正如我们在本系列中所做的那样,您可以在此处查看视频版本:我们始终建议在 YouTube 选项卡或窗口中打开视频以获得更好的观看体验。此外,我们想指出,我们能够做到这一点的方式是我们设法在 6 月份阻止了 Supermicro,那里有两个 8x NVIDIA A100 系统设置。幸运的是,我们有能力检查实验室中其他一些有趣的项目。快速感谢 Supermicro 实现这一目标。首先,让我们进入液体冷却方法以及我们为什么要关心。从为什么开始可能是最容易解决的问题,所以我们将从这个开始。数据中心液体冷却即将发生。今天,我们通常会看到 200-280W 范围内的 CPU 和 250-400W 范围内的 GPU。到 2022 年,我们将开始看到 CPU 的使用功率超过 300W,超过当今大多数 GPU,并且 GPU/AI 加速器的功率将达到 600W 或更高。在这种背景下,人们还必须记住,PCIe Gen5 和 EDSFF 革命等功能将给在远离 CPU 和 GPU 的设备上创建具有更高功率需求的更大系统带来更大压力。我们最近做了一个 E1 和 E3 EDSFF 来从 M.2 和 2.5 中接管 SSD 文章和视频,你可以在这里看到:许多来自发烧友工作站背景的人可能会立即认为液体冷却是保持芯片冷却的一种方式。确实如此,但这并不是冷却问题的唯一地方。

在数据中心层面,液体冷却实际上得到了相当广泛的使用。液体通常用于将热量从数据中心地板转移到冷却器或数据中心的其他部分。我们最近做了一个作品:用这里的视频游览 PhoenixNAP 数据中心:在那篇文章中,人们可以看到液体被用来从设施中去除热量并保持数据中心凉爽。有许多数据中心更广泛地使用液体冷却并采用不同的方法,但在数据中心设施级别,液体冷却的使用非常频繁。之所以需要这样做,只是因为产生的热量正在增加,并且在液体中移动热量,从而更快、更有效地传递更多热量是最佳选择。在机架级别,也存在重大挑战。多年来,北美机架的典型供电一直是通过 208V 30A 电路。那些只提供 208V * 30A * 80% 的安全负载 = ~5kW 的功率。我们将在本文后面展示的服务器在单个 4U 服务器中使用超过 5kW 的功率。这具有巨大的影响。在更高的功率水平下,遏制可能会有所帮助,但在某些时候,设计用于容纳 120W/U 左右的服务器的机架需要处理 >1kW/U 的冷却。虽然冷却似乎是一项简单的任务,或者只是降低密度,但这也会产生后续影响。如果机架中只有几台服务器,那么互连最有可能是光学器件,有时甚至可能覆盖更远的范围。如果一个机架中有许多服务器,那么到机架顶部交换机的廉价且低功耗的 DAC 连接是有意义的。同样,用于 20 台服务器的两个 PDU 似乎不是一个巨大的成本,但用于单个服务器的两个 PDU 会增加成本。最后,许多组织在可以使用的机架数量方面受到限制。因此,如果由于电源和冷却需要 100 个机架,那么构建具有 100 个 GPU 服务器的 GPU 集群可能是不切实际的。必须快速从机架中排出热量以维持服务器的性能并使服务器以最高性能水平运行。在 STH,我们是唯一一个使用上下机器测试服务器以模拟实际使用情况的站点。例如,我们于 2017 年开始使用“STH Sandwich”测试 2U 4 节点外形,其中被测系统的顶部和底部由上方和下方的系统加热。这对于现代服务器测试至关重要。如果现代服务器的上方或下方没有服务器,它们的性能通常会更好,因为它们的冷却效果更好。在实际部署中,大多数人希望获得每个机架的最大性能。随着服务器变得越来越热,在机架级冷却是一件大事。这实际上意味着许多围绕 5-15kW 机架设计的设施现在面临着标准 1U 服务器每个使用 1kW 的情况。这些设施的冷却根本无法跟上更新服务器的步伐。我们已经度过了双路(加加速器)标准服务器使用超过 208V 30A 机架的时代,明年这种外形可能至少增加 1kW,然后继续上升。

在芯片层面,我们刚刚开始达到有效需要液体冷却的地步。使用 500W NVIDIA A100,绝大多数 8x GPU 设计都需要液冷。一些机架密度减半的 4x GPU 设计可以冷却 500W GPU,但需要严格且低的设施环境温度才能有效地进行空气冷却。这是因为,在芯片级别,必须从封装表面去除热量。由于只有有限的表面积,因此需要在该表面积上增加散热速率。我们开始看到,从现代芯片中去除热量的唯一实用方法是使用某种液体冷却。最重要的是,液体比空气具有更高的能力来快速有效地传递热量。在这样的背景下,我有机会了解了两种系统,一种是风冷系统,一种是液冷系统。在 Supermicro 期间,围绕这两个系统,实际上公司的一些努力突出了三种主要的散热方法。有一个较旧的后门热交换器,一个浸液冷却罐,最后是一个直接到芯片的液体冷却解决方案。