我如何建造25欧元的机器学习钻机

2021-04-06 17:26:43

它有4个NVIDIA RTX A6000和带有32个核心的AMD EPYC 2,包括192 GB的GPU内存和RAM中的256GB(部分列表)。

直到AMD的GPU机器图书馆更稳定,NVIDIA是唯一的真实选择。由于Nvidia最新的安培微体系结构明显优于上一代,我只关​​注安培的GPU。

让我们概述消费者和专业卡的一些局限性。

每位客户的消费供应:1 GPU(大多数商店只允许您购买一个消费者GPU,并且它们普遍在发布后3-12个月内提供)

我试图购买5 RTX 3090,但在等待四个月后,由于供应问题,我选择了四个RTX A6000。

根据Lamda Labs和Puget Systems的说法,3080和3090双槽鼓风机版本在标准尺寸的主板上彼此相邻的可靠性齐全。因此,您需要PCIe提升板,水冷钻机或电源使用。

在露天钻机中使用PCIe立管将硬件暴露在灰尘。水冷钻机需要维护,并且在运输过程中具有泄漏的风险。封盖电源使用是非标准的,可能导致不可靠性和性能损失。

对于3+ GPU钻机,许多选择消耗300W或更低的卡片,因此RTX 3070和Down或A6000及Up。

今天的大多数模型都是为16GB卡设计的,因为大多数主流云GPU有16 GB GPU内存,我们正在转向40 GB。因此,具有最低存储器的卡将在重写软件中看到增加的开销,以适应更低的存储器限制。

5+ GPU消费钻机人们在线看到在线通常是具有多个电源的加密钻机。

由于加密钻机不需要高带宽,因此它们使用特定的USB适配器来连接GPU。它是一个转移没有电力数据的适配器。因此,分离了GPU和主板的功率,这减少了混合电路的问题。

然而,适配器通常具有差,小焊接误差既可以破坏您的硬件并着火。它们尤其不推荐用于要求PCIe提升板的ML钻机,以实现75W的电力。

Crypto Rigs还使用来自阿里巴巴的采矿电源,标准差或改造企业电源。由于人们倾向于将它们放在车库或容器中,因此他们接受了增加的安全风险。

对于安培系列,NVIDIA使得难以使用超过2个GPU的工作站使用高端消费卡。 3槽宽度,高瓦加,看到几个制造商停止了3090的2宽鼓风机版本 - 都表明了这一点。

因此,制度和企业安培卡片'关键销售点是支持3个以34/365工作负载的3个以上GPU钻机。

80GB的GPU将为您提供特定模型的优势,但很难说如果它们有足够的计算以有效地从大规模模型中受益。最安全的选项是40GB版本。但是,很难忽视80GB GPU的吹牛权。

通常,我不考虑NLP,CV或RL特定的工作负载。它们会随着性能而有所不同,但由于机器学习景观速度如此之快,因此它不值得过度优化特定的工作量。

对于更深入的比较,请阅读Tim Detmers'Go-to GPU指南。额外关注张量核心概述,稀疏训练,盖板GPU瓦数和低精度计算。

虽然电源盖消费者钻机,但服务器钻机受重量,情况大小和网络开销。

这里的关键约束是网络开销。一旦连接一个或多个服务器,就会需要软件和硬件来管理系统。我强烈推荐Stephen Balaban'建立机床群体的机器学习概述。

具有八个SXM4的服务器坐在75公斤左右。因此,您理想地需要服务器升力。 SXM4可以难以修复,而不是PCIe服务器的标准零件。

A100和A6000也有没有内置风扇的版本。这些需要具有十几个10k + RPM风扇的服务器箱。这些将使它们更容易容忍,因为您可以热插拔粉丝。

在速度方面,A100比A6000快1.4倍。但A6000比3090更快1.2,以及3080的两倍。

其他值得注意的基准是PCIe和SXM4之间的比较。 NVIDIA的A100 PCIe只能连接到另一个GPU,而NVIDIA的A100 SXM4可以同时连接到8 - 16 GPU。

NVIDIA的NVSwitch和SXM4在理论上具有10倍的带宽,但在8 GPU设置中,与PCIe解决方案相比,它只有10%。由于SXM4在每个GPU的基础上快8%,因此NVSwitch具有边际撞击。

它应该是8-GPU系统的边际差异。根据Lamda Labs的首席执行官,他们可以看到较大集群中某些用例的2倍改善。因此,它主要针对多个8-GPU系统指示。它也值得研究DGX A100 SuperPod系统,以几百GPU的等级。

此外,在网络基准测试中,注意GB / S(千兆字节)和GB / S(千兆)。 GB / S比GB / s快八倍。

定价近似为实际零售价格,用于简化,无增值税和折扣。

NVIDIA还提供启动和教育折扣,以便您可以节省15-30%的GPU。对于启动,适用于开始计划。总的来说,获得折扣需要大约一个星期。

我通过建造它和NVIDIA GPU折扣,我在4个X RTX A6000上保存了大约4欧元。

SMX4卡作为8 GPU服务器的一部分出售,因此由于自定义GPU-to-GPU通信,每个GPU定价是一个粗略的近似,使其使其更昂贵。

当你开始时,你经常在同一个房间里有机器,并应对不便。

正如您所示,您需要更多的基础架构。您可以将其移动到一个单独的办公室,然后将其放在数据中心,以搭配开始,然后从第1层到4个数据中心攀升,以增加容错。

我发现4个GPU太大,在办公室或家里没有适当的冷却,产生过多的热量。这是Puget Systems的快速基准。思考,一个带有热空气的小叶子鼓风机,等于1600W散热器。

数据中心搭配的起始价格为每GPU和月份约为80-250欧元,包括电费下的每GPU 25欧元。您可以在此处询问来自所有本地数据中心搭配的报价。如果您计划在4+ GPU上运行工作负载24/7/365,我强烈推荐它。

您可以轻松购买4 GPU服务器的零件,类似于PC。鞍冰通5+ GPU ML服务器将花费大约7欧元。

与英特尔相比,AMD具有5倍的内部带宽。它既便宜又更好。大多数安培ML服务器使用AMD。

ProSumer(Ryzen Threadripper第3 Gen使用Strx4,以及第1 Gen Pro版本的SWRX8插座)

对于1-GPU系统,Ryzen非常出色,并且在2-4个GPU PC之间的系统,使用ThreadRipper。对于5个以上GPU系统和服务器构建,请使用EPYC。

ThreadRipper比EPYC快,但EPYC有两倍的内存通道,RDIMM,并且需要更少的能量。如果您计划将计算机作为服务器使用,我会使用EPYC。

我最终用了一个AMD EPYC 2罗马7502P,32个核心。对于处理器,我每GPU使用八个核心作为粗略的指导。此外,如果支持单个,双重或两个处理器设置,请注意。

为了冷却,Noctua风扇是最安静,最表情和可靠的。但是,我发现棕色方案相当难看。它们也很大,所以确保它们适合您的RAM和底盘。

对于RGB粉丝,我喜欢Corsair的一体化(AIO)液体CPU冷却器。他们带来了生活。颜色是可编程的,系统在CPU周围释放空间。他们使用防冻液,泄漏风险很小。

所有ThreadRipper和EPYC CPU都具有相同的尺寸,使冷却器兼容,但您可能需要安装支架。此外,检查冷却器是否支持您选择的CPU的瓦数。

我避免由于成本,维护,冻结风险,运输风险和缺乏灵活性而定制液体冷却。

如果您计划使用您的MLIT作为常规PC并希望内置支持,例如,WiFi,耳机插孔,麦克风插孔和睡眠功能 - 您可以使用消费者或专业主板。

在我的情况下,我使用双用法的Prosumer / Server主板,支持远程处理或智能平台管理界面(IPMI)。通过以太网连接和Web GUI,我可以安装操作系统,将其打开/关闭,然后连接到虚拟监视器。如果您计划使用它24/7/365,IPMI是理想的。

CPU插座具有内置芯片组,并且ProSumer和消费者卡具有额外的芯片组,以实现特定的CPU或功能,例如,用于ThreadRipper的Ryzen和Trx40的B550。

对于Ryzen 5000,建立具有BIOS闪存按钮的理想选择。否则,您需要一个早期的Gen Ryzen CPU来更新BIOS与Ryzen 5000兼容。

5+ GPU服务器的主板很难单独购买。虽然消费者设置是模块化的,但集成了更大的服务器构建。

主板的标准尺寸为ATX,它是305×244毫米,适用于服务器机箱和PC。我主要查看ATX板,标准尺寸,避免任何底盘间距问题。

一些其他形式因素的规模差异,具体取决于制造商,以便在机箱方面更加有限。对于消费者机箱来说,这不是一个大的优惠,而是对于服务器机箱,您不会超过ATX 305 mm的高度。

寻找的重要事项是PCIe插槽,即可插入GPU,上面的垂直灰色插槽。上面,您有七个单宽插槽。

连接将是GPU的最右侧。如您所见,RAM插槽与第一个GPU之间的差距是紧张的。

当您在7插槽板上有四个双宽GPU时,第4 GPU将超过电路板' s底部。因此,您需要一个支持8个PCIe扩展插槽的PC或服务器机箱。

对于两个RTX 3090 Triple-Slot卡,您可以使用第一张牌盖上前三个PCIe插槽和空插槽,并将第二个GPU覆盖最后三个插槽。

如果您计划购买NVLink以连接两个GPU,它们通常会进入2插槽,3插槽和4个插槽版本。在图片中,您需要两个2插槽桥。对于具有间隙之间的三槽卡,您需要一个4插槽的桥:卡的宽度,3插槽,加上1槽间隙。

PCIe物理长度:图片中的X16,GPU的标准为89毫米。

PCIe带宽:有时,您的长度为X16插槽,但只有一半的引脚将其连接到主板,使其成为X8带宽的X16插槽。供参考,加密钻机将使用X16适配器,但具有X1带宽。

发电速度:上面的板是4.0。每一代往往是前一代的两倍。 NVIDIA的最新GPU是Gen 4.0,但在实践中对Gen 3.0板上具有可比性。

多种GPU要求:4-10 GPU系统,大多数推荐至少X8 Gen 3.0每个GPU。

大多数人寻找的另一件事是PCIe车道的总量,总内部带宽。它为您提供了网络,存储和多个GPU容量的粗略指示。

主板制造商可以使用PCIe车道优先考虑某些功能,如存储,PCIe插槽,CPU-to-CPU通信等。

供参考,一个GPU将使用X16车道,10 GB / S以太网端口使用X8车道,并且NVME SSD将使用X4车道。

最常用的ML工作站底盘是Corsair硬质合金Air 540,以及Chenbro Micom RM41300-FS81的消费者服务器。从声音,灰尘和运输的角度来看,这两种情况是理想的。两者都将在rtx 3090中容纳rtx 3090,但您需要一个用于chenbro的后端电源连接器。

我开始使用ThermalTake核心P5钢化玻璃版。从痉挛角度来看,这是最好的。但它相当笨拙,而不是理想的灰尘。鉴于GPUS'热量和噪音,我决定使用Chenbro机箱将其转换为服务器并将其放入数据中心。

GPU之间的空间比主要的底盘气流更多。如果您要参加3+ 3080/3090,您希望调查露天加密钻机设置。然而,这些都非常嘈杂,易受灰尘。理想情况下,您希望将其放入隔离的房间,冷却和灰尘过滤器。

Chenbro底盘在盖子上有两种120 mm 2700 rpm的风扇,为GPU创造了出色的气流。

当您有GPU,CPU,主板和机箱时 - 其余组件易于挑选。

电源:对于电源,我看过两家供应商认为是最好的,evga和Corsair。我添加了总GPU瓦数,额外的250W和边距。这是一个更准确的计算器。我最终与Evga Supernova 1600W T2结束。

RAM:我看着主板提供商推荐的东西,并购买了我可以轻松在线购买的东西。建议用RAM填充可用的插槽,我希望RAM匹配或超过GPU内存。根据Tim Dettmers,RAM速度对整体性能没有影响。我用8 x金士顿3200MHz DDR4 KSM32RD4 / 32ME,所以256 GB。

NVME SSD:我在PCPartPicker和Newegg上检查了最高评级的SSD。我使用每GPU 0.5 TB作为PCIe Gen 4.0的指导。我抓住了两个2 TB Samsung 980 Pro 2到M.2 NVME。

硬盘驱动器:我使用与我的SSD相同的策略,但每个GPU为慢速存储6 TB。这最终是2 x 12 Tb Seagate Ironwolf Pro,3.5'&#39 ;, SATA 6GB / S,7200 RPM,256MB缓存。对于更严格的基准,您可以研究磁盘故障率。

NVLink:很好,可以在特定工作负载上通过几个百分点提高性能。它不结合两个GPU的记忆,这只是令人困惑的营销。

如今,如果我在亚马逊上找不到它,我在买东西之前我才三思而后行。大约30%的较鲜为人知的商店给了我头疼。

商店忘了我的订单,我不得不跟进3-9周(3家商店)

一家商店给我发了一个他们取消的订单,然后向我收取几百欧元的回报(1店)

一家商店没有将产品发给我一个月,而不是退款,他们给了我一张优惠券(1店)

客户服务要么自动化,要么是难以忍受的解决问题的程度,要么是难以承受的问题(6家商店)

PNY列出了ProSumer和企业卡的零售商。我伸向法国的所有供应商。 50%没有回复。回复的回复,60%没有最新的牌,以及我所提供的引号,价格在5-10%之间变化。在法国,Carri系统具有最优惠的价格和良好的客户服务。

PCPartPicker拥有超过40 000个具有RTX 30系列的构建,尽管大多数是1 GPU,一些2-GPU钻机,但没有3+。

如果您知道列出价格的其他提供商,请在此提交它们,我将添加它们。

建造钻机的艰难部分正在寻找零件,特别是如果您正在尝试执行非传统的事情。

将碎片放在一起,安装它们需要不到一个小时,但您可能希望花几个小时的时间待在安全方面。

我在家里有一个移动维修套件,这是有用的,但你可以使用标准的螺丝刀和良好的比特。

我使用远程管理系统来安装软件。当我将以太网电缆插入路由器时,它将其分配了IP地址,然后我将IP地址放在浏览器中,我可以访问Web界面以更新BIOS并安装Ubuntu 20.04 LTS。

然后我为所有GPU驱动程序和机器学习库安装了Lambda堆栈等。我强烈推荐它。

如果您使用的IMPI,请将VGA输出更改为BIOS中的内部。否则,您无法在IMPI中使用虚拟监视器而不删除GPU。

拥有硬件的主要原因是工作流程。不要在云节省时浪费时间并鼓励稳健的实验。

如果您的时间价格,建造钻机的成本节约是可疑的。但是,你会学到一群束缚,成为一个受过良好教育的消费者。此外,当所有预先构建的供应商都有GPU供应问题时,这是一个有价值的技能。

NVIDIA正在努力使用高端消费卡3+钻井平台。对于家庭服务器室的Prosumer Rig,我将在露天钻机中获得4 x 3090。并且有更多有限的空间,一个2 x 3090的工作站。

使用更大的预算,4次X RTX A6000是一个很好的选择,但鉴于噪音和热量,我会为服务器解决方案解决并将其放在数据中心。 A100拥有最多的心态,但A6000 / A40更具价值。 SMX4太笨重,在PCIe版本上提供边际性能增益。 我想看看一个透明的基准与大型集群在实践中看到好处。