AMD 3RD Gen Epyc米兰评论

2021-03-16 00:02:22

AMD 3 RD GenerationCroper家族的到来,使用新的Zen 3核心进行了热烈预期。新的处理器核心微架构的承诺,对连接和新安全选项的更新,同时仍然保持平台兼容性是企业平台更新的好的衡量标准,但一个真正的度量是平台性能。在11月份,在消费市场中看到Zen 3分数终极性能领导,对企业市场上类似的猛击扣篮的预期,今天我们可以看到这些结果。

AMD推广新一代硬件的标题号是原始性能吞吐量的增加+ 19%,因为具有新的核心设计的增强。在此之上,AMD具有新的安全功能,针对不同内存配置的优化,以及使用Infinity结构和连接的更新性能。

任何寻找新EPYC 7003系列的简写规范的人都会看到其代号米兰,将看到与前一代的熟悉,然而,AMD周围的这次是针对几个不同的设计点。

米兰处理器将提供多达64个核心和128个线程,使用AMD的最新Zen 3核心。处理器设计有八个核心八芯,类似于罗马,但这次连接小芯片中的所有八个核心,实现了用于较低总缓存延迟结构的有效的双L3缓存设计。所有处理器都将有128个PCIe 4.0,8个通道内存,大多数支持双处理器连接的模型,以及通道内存优化的新选项可用。所有米兰处理器都应该与具有固件更新的罗马系列平台兼容。

这里的一个亮点是,新一代的处理器将为所有客户提供280个型号,以前的一代人只有240 W型号,然后为特定的HPC客户提供280 W,但是这次所有客户都可以实现那些高性能零件具有新的核心设计。

AMD的新顶级处理器是EPYC 7763,64核处理器,280 W TDP提供2.45 GHz基础频率和3.50 GHz升压频率。 AMD声称,与英特尔最佳的2P 28核处理器,黄金6258R,+ 17%在其上一代280W版本中,该处理器在工业基准中提供+ 106%的性能。

AMD与新米兰一代的角度之一将是有针对性的性能指标,公司不仅仅是在'峰值'号之后,也对需要高度核心性能的客户来说,尤其是软件,对客户提供更广泛的观点这是总体核心表现有限或许可的。考虑到这一点,AMD的F系列的“快”处理器现在正在堆栈中结晶。

这些处理器在AMD提供的其他任何内容中的峰值单线程值,以及L3缓存的完整256 MB,并且在我们的结果中,每个线程的基础上的最佳分数比我们在x86跨越企业测试的任何其他内容和ARM - 更多详情述评。 F系列处理器将略微溢价。

第一代EPYC于2017年6月推出。当时,AMD基本上是菲尼克斯:从其前Opteron业务的灰烬上升,并承诺与新的处理器设计哲学回归高性能计算。

当时,传统的企业客户群并没有最初说服 - AMD的最后一个人进入企业空间,并通过新一代的范式转换处理器核心,而它已经成功,因为AMD不得不阻止破产。当时留下Opteron客户没有在视线上没有更新,并愿意从过去曾刺起的公司的未知平台愿意跳过,这不是许多人的积极前景。

当时,AMD推出了三年的路线图,详细说明了它的下一代,该途径将克服99%的市场股权在绩效和产品中享有百叶派。这些被视为崇高的目标,很多人坐在愿意看别人赌博。

随着第一代那不勒斯推出,它提供了令人印象深刻的一些性能数字。它在所有领域并不相比竞争,与任何新平台一样,有一些出牙问题开始。 AMD在慢慢扩大生态系统之前,将初始循环保持在其一些关键的OEM合作伙伴。那不勒斯是提供广泛的PCIe 3.0和许多内存支持的第一个平台,并且该平台最初针对这些存储或PCIe重型部署。

第二代罗马在2019年8月推出(+26个月)创造了更多的粉丝。 AMD的最新ZEN 2核心在消费者空间中具有竞争力,SOC布局有许多关键设计变化(例如移动到NUMA平面设计),鼓励许多怀疑论者开始评估平台。这样的兴趣甚至告诉我们他们必须选择他们在正式发布之前要协助的OEM平台。罗马的表现很好,它赢得了一些高调的超级计算机胜利,但更重要的是,也许它展示了AMD能够在2017年6月回到该路线图上。

该平面SOC架构以及更新的ZEN 2处理器核心(其实际从ZEN 3借用元素)和PCIe 4.0,允许AMD开始竞争性能以及IO简单地竞争IO,而AMD的OEM合作伙伴一直在广告罗马处理器作为计算平台,通常更换两个英特尔28核处理器的一个AMD 64核处理器,也具有更高的内存支持和更多PCIe产品。这也允许计算密度,并且AMD在一个地方可以帮助驱动其平台的软件优化,而且提取性能,也可以在边缘案例上移动其竞争对手的竞争者非常优化。所有主要的超值者还为客户以及内部进行了评估和部署了基于AMD的产品。 AMD的批准贴纸几乎在那里。

因此,今天的AMD正在继续参观意大利与米兰的旅行,罗马几个+19个月。底层SoC布局与罗马相同,但我们在表格上具有更高的性能,具有额外的安全性和更多配置选项。过度高音界面已经为其部署获得了六个月的最终硬件,AMD现在可以帮助启动更多OEM平台。米兰与罗马兼容,罗马当然有助于,但与米兰覆盖更多优化点,AMD认为它具有更好的位置,以实现更多的市场,高性能处理器,高于每核性能处理器,而不是以往任何时候前。

AMD在2017年6月展示的路线图中,米兰推出了米兰,并验证其可靠客户对客户执行的能力,而且还提供以上其客户的标准性能提升。

下一站式在意大利之旅是热那亚,设定使用AMD即将到来的Zen 4微架构。 AMD还表示,ZEN 5在管道中。

AMD在罗马推出后19个月推出了这一新一代米兰处理器。在那个时候,我们已经看到了Amazon Graviton2和Ampere Altra的推出,建于Arm的NeoVerse N1家族核心。

来自英特尔,该公司在大套接字和小套接字配置之间努力。对于大插座(4+),有Cooper Lake,仅供选择客户的天窗衍生。对于较小的套接字配置(1-2),英特尔将在今年的某一点上启动其10nm Ice Lake Portfolio,但仍然对确切日期仍然保持沉默。为此,我们必须将米兰比较英特尔的级联湖Xeon可扩展平台,与我们比较罗马的平台是相同的平台。

对于此评论,AMD向我们远程访问具有不同处理器配置的多个相同的服务器。我们将我们的努力集中在堆叠的叠加ePYC 7763,280 W 64核处理器,EPYC 7713,225 W 64核处理器和EPYC 7F53,A 280 W 32核处理器设计为HALO MILAN处理器进行每核性能。

在下一页,我们将通过AMD的米兰处理器堆栈,并与罗马的比较以及与当前的英特尔产品的比较。然后我们通过测试系统,讨论我们的SoC结构测试(缓存,核心,带宽),处理器电源,然后进入我们的完整基准测试。

可以通过单击链接来访问这些页面,或使用下面的下拉菜单访问。

在过去的AMD中,在单个插座和双套接字设置方面促进了其EPYC定位,主要是在其较大的处理器之一可以实现与Intel的两层产品相同的计算。这次,AMD实际上与英特尔的直接比较与其处理器站立的位置一样,而是专注于市场优化市场的不同元素。

AMD市场优化有三种主要的口味:核心性能,核心密度,平衡和优化。

核心优化处理器在最后一页中分段为处理器阵容的突出显示,现在称为AMD的F系列处理器。这些部件以名称为F,提供最多32个核心,此处的主要重点是个人核心性能峰以及持续的性能。与类似核心计数的其他部分相比,这些具有较高的TDP值,并充电溢价。

对于此评论,我们测试的一个处理器之一是EPYC 75F3,32核处理器提供4.0 GHz Turbo,2.95 GHz基础频率和所有256 MB的L3缓存。该处理器每个钟芯片有四个核心,毫无疑问,这些处理器在每个小芯片中使用最佳电压/频率响应核心制造。 4860美元的价格点高于下一个最佳32核处理器的3761美元,展示了一些溢价。

用户会注意到16核处理器比24个核心处理器(2900美元)更昂贵(3521美元)。这在前一代中是相同的,但在这种情况下,16核的TDP具有更高的TDP。对于此启动,16核F和24-Core F都具有相同的TDP,因此我能够考虑AMD在16核处理器上具有更高价格的唯一原因是它每小芯只有2个核心活跃,而不是三个?也许它更容易用偶数核心活动的处理器。

在底部是AMD的唯一​​8核产品,意味着每个小芯片只有1个核心,并为L3缓存的零争用。它还具有频率的小范围,这应该能够实现确定性工作负载 - 尽管180W上市TDP,但4.1 GHz Zen 3核心每个核心不需要超过10 W,这为想要的任何配置留下了大量的电力推动IO一点速度更快(下面更多)。

所有这些处理器都针对运行由单线程工作负载(例如EDA工具)的软件的系统,或者对于需要大量IO的软件,但可以受到每核许可限制的限制。所有这些处理器都可以用于双套接字配置。

作为处理器阵容的一部分,AMD突出显示其所有高芯计数产品,作为核心密度优化,并且可以利用较低的内存通道交错配置(见下文)构建的系统可以建立在384核的比例范围内或每1U 768线程。

新的光晕顶部堆叠处理器,64核EPYC 7763,自然地适合该段。在280 W处,它将另外40 W增加到顶级处理器,从AMD公开提供,随着基础频率和涡轮增压频率以及提供额外的IPC增益。价格在1000美元以下的价格增加到AMD认为它适合这个市场。

AMD将EPYC 7763从前一堆堆叠处理器中的“一步”,7742。在这种情况下,对64核7742的直接替换是7713.我们已经测试过米兰和米兰7742罗马进行了此评论,所以我们可以看到新处理器的隆起是多少。

也是核心密度系列的一部分是第一个单个插座处理器,7713p。这与7713相同,但不支持2P配置。结果,它价格在2000美元便宜。

家庭的其他有趣成员是7663,一个56个核心处理器。此配置意味着AMD使用每个小芯片的7个核心,而不是完整的8,这是AMD与上一代没有的配置。似乎AMD的客户已请求这样的型号,为其工作负载进行了优化,其中可能需要较少的缓存争用,或者对于不会将所有方式扩展到64个核心的工作负载。

AMD的其余部分的米兰处理器组合来自“平衡和优化”的横幅,这是AMD将提供其16-32个核心处理器以及剩下的1P单插座部件的地方。

几乎所有这些处理器都将L3缓存中的一半到128 MB,这表明这些处理器只有四个活动小芯片 - 这允许AMD优化其硅产品,而不是提供大量启用了一半的芯片。这可能是在价格中可能的,因为8-Chiplet 32​​核EPYC 7543比EPYC 7513昂贵1000美元。

AMD仅在此处降至16个核心 - 唯一的8个核心处理器是前面提到的72F3。也许引人注目的是,AMD不低于155 W TDP,因为我们将在审查后来看到,可能会归结为一些IO。

对于那些希望在一个表中查看所有可配置的TDP选项的表中的所有处理器的人,我们在这里。我们在此评论中进行测试的处理器以粗体突出显示。

为了填补成本和产品的一些要求,AMD还计划为市场提供2个ND Gen Epyc,以便为客户提供良好的时光,为客户提供平台。这些包括32核7532,24芯7352,16芯7282和几个8核处理器。

始终针对前一代进行直接比较,这些是建议的比较:

在我们对AMD的Forrest Norrod采访中,他解释说,米兰的原始目标是将罗马的8核心小柱从Zen 2更新到Zen 3,但许多因素意味着中央IO死亡也接受了电力的更新侧面和无限织物性能。

除了ZEN 2到ZEN 3的核心更新,我们在消费者覆盖范围内广泛涵盖,AMD已启用米兰的几个关键功能。

企业和数据中心市场涉及大量的潜在工作负载,有些是计算束缚,有些是内存绑定的,但目标一直是尽可能快地完成工作,尽可能快地完成工作,并且尽可能快地完成工作可能的。较大的公司通常会以可想而想的各种方式优化其部署,并包含内存。

AMD承认,市场的一部分是非常多的内存,无论是容量,延迟还是带宽。这些客户将继续苛刻的容量支持,更快的内存,或者对于容量或带宽的更多内存通道。我们被告知,在这些客户之间的某种程度上有一个整体分裂,以及简单地计算的人,这可能会在未来与差异化产品的头部。但是现在,我们在市场上有八声道DDR4处理器,这对一些客户来说不够,但对于不需要所有容量或带宽的人来说,这很多。

它是可能发生优化的后一种客户。例如,如果内存带宽或容量不是限制因素,那么这些客户可以使用正在使用更少的内存通道的设计系统。这通过增加密度,使物理系统设计更简单,也许是冷却,而且还通过禁用那些内存通道,可以为其计算绑定系统提供更多的电力。我们在前一代生命周期中来到了一点,我们开始看到主板输入市场,因为这些原因少于八个内存插槽。

为了获得最佳性能或可靠的性能,从内存(而不经历任何NUMA或筛选效果),安装的内存需要在安装的内容上启用有效的内存交织。 AMD EPYC在过去支持了8通道交错和4频道交错,但对于米兰,AMD也支持6声道交错,为那些配置构建的客户。四个和八个是两个用于AMD的显而易举的力量,默认情况下,但足够的要求六是在那里启用IO DIE的更新以支持这种模式。

AMD已确认所有米兰处理器都支持6通道内存交错,当使用每个通道的一个模块时,都会支持所有米兰处理器。

幽灵,崩溃的影响及其变体已经重新培育了处理器安全性,在所有主要的微处理器设计师和制造商处更加积极主动。 AMD已经为其易感的幽灵变体实施了硬件的修复,并且不需要添加额外的保护,因为AMD CPU不自然易受攻击。

超出这些攻击的新段基于返回地址编程,并通过操纵堆栈返回地址或跳转/控制命令有效地调整处理器上的代码控制流程。 AMD在ZEN 3核心中实施了这些攻击的修复,这些修复程序通过了EPYC米兰,称为“阴影堆栈”。这些是基于硬件的解决方案,为性能实现了最小的效果,但安全性绝对需要。

另一个部分到AMD的安全更新是安全的分页,部分AMD安全加密虚拟化技术。这些技术均处理超高高速公路,在单个系统上启用多个主机实例,并且能够彼此保护实例。在上一代罗马中,安全的加密虚拟化允许安全管理程序以安全和加密的方式彼此隔离这些实例或虚拟机(因此名称)。

Secure嵌套分页进一步占据该阶段,并从管理程序本身允许额外的虚拟机安全性。这允许防止不受信任的虚拟机管理程序,如果攻击者访问访问,并支持对最初未构建软件的未经修改的客户操作系统上运行的软件。

在所有AMD的产品系列中Zen 2核心复合体的Zen 2核心复合体中的一个大更新之一是该复杂的大小,从四个核心转移到八个核心。这意味着在八个核心小芯片中,而不是有四个核和分离的L3缓存的两个复合体,现在具有统一缓存的单个八个核心复合体。如在我们的消费者评论中所见,记忆力运行以及分支重型代码很重要。另一个好处是,该复合物的控制电子器件现在处于小芯片的边缘,提供一些小的改善。

我们将在审核中稍后改变缓存结构的究竟如何变化。

另一个角度到米兰在IO中的表现是无限的织物和PCIe。对于此一代,AMD已启用18个Gbps Infinity Fabric链接,从前一代16 Gbps链路。这可能遇到略微略有,但它应该在竞争力的核心通信环境中实现更好的性能。

AMD还支持与米兰的PCIe链接上的扩展速度模式。这是PCIe 4.0的一部分

......