AMD Zen 3 Ryzen深潜评论

2020-11-06 07:20:38

当AMD宣布其新的Zen 3核心是一次彻底的重新设计,并提供完全的性能领先时,我们不得不要求他们证实这是否真的是他们所说的。尽管AMD的规模还不到英特尔的10%,而且在2015年作为一家公司已经接近倒闭,但AMD在那个时间框架内对其下一代Zen微架构和Ryzen设计的押注现在正在结出硕果。针对台式机市场,Zen 3和新的Ryzen 5000处理器实现了这些目标:不仅性能功耗比和性能价格比处于领先地位,而且在每个细分市场都处于绝对的性能领先地位。我们已经研究了新的微体系结构,并测试了新的处理器。AMD是新的王者,我们有数据证明这一点。

新的Ryzen 5000处理器是Ryzen 3000系列的替代产品。今天,任何拥有AMD X570或B550主板,拥有最新BIOS(AGESA 1081或更高版本)的人,都应该能够毫不费力地购买和使用其中一个新处理器。任何拥有X470/B450主板的用户都必须等到2021年第一季度这些主板进行更新。

正如我们之前所说的,AMD今天将推出四款处理器进行零售,从六核到十六核不等。

根据JEDEC标准,所有处理器都具有对DDR4-3200内存的本机支持,尽管AMD建议使用稍微快一点的内存以获得最佳性能。所有处理器还具有20条PCIe 4.0通道,可用于附加设备。

顶级处理器是Ryzen 9 5950X,有16个内核和32个线程,提供3400 MHz的基频和4900 MHz的Turbo频率-在我们的零售处理器上,我们实际上检测到了5050 MHz的单核频率,这表明该处理器将在5.0 GHz以上进行涡轮增压,具有足够的散热余量和冷却!

该处理器通过两个八核芯片(下面将详细介绍)启用,每个芯片具有32MB的L3高速缓存(总计64MB)。Ryzen 9 5950X的额定TDP与Ryzen 9 3950X相同,为105W。根据AMD的插座设计,在支持它的主板上,峰值功率将为~142W。

对于那些没有阅读其余评论的人来说,Ryzen 9 5950X的简短结论是,即使在799美元的建议零售价下,它也能使整个消费级产品的表现达到一个新的水平。单线程频率高得离谱,当与具有更高IPC的新内核设计相结合时,会将单核受限的工作负载推到英特尔最好的Tiger Lake处理器之上。在多线程工作负载方面,我们全面记录了消费类处理器。

与英特尔最好的消费级处理器相抗衡的是Ryzen 9 5900X,它有12个内核和24个线程,基频为3700 MHz,涡轮频率为4800 MHz(观察到4950 MHz)。该处理器通过两个六核芯片启用,但所有高速缓存仍以每个芯片32MB的速度启用(总共64MB)。5900X还具有与其在105W时替代的3900X/3900XT相同的TDP。

549美元的价格比它所取代的处理器高出50美元,这意味着额外10%的成本,它将不得不展示它的性能至少可以提高10%。

在上一代AMD展示了一款不到100美元的四核处理器后,花了很大力气才能以449美元的价格提供一款八核处理器--AMD坚持其声称的这款处理器可以大幅提升代际性能的说法。新的AMD Ryzen 7 5800X拥有8个内核和16个线程,将与英特尔的酷睿i7-10700K展开竞争,酷睿i7-10700K也是一个8核/16线程处理器。

Ryzen 7 5800X的基频为3800 MHz,额定Turbo频率为4700 MHz(我们检测到了4825 MHz),并使用了一个8核芯片,总共有32MB的L3缓存。与需要跨CPU通信的双芯片设计相比,单核心芯片有一些小的好处,这在我们的一些CPU非常有限的游戏基准中得到了体现。该处理器还具有105W的TDP(约142W峰值)。

AMD今天发布的最便宜的处理器是Ryzen 5 5600X,但它也是唯一一款配备CPU散热器的处理器。Ryzen 5 5600X有6个内核和12个线程,运行在3700 MHz的基频和4600 MHz的峰值Turbo(测量为4650 MHz),并且是唯一被赋予65W(~88W峰值)的TDP的CPU。

单芯片设计意味着总共32MB的三级高速缓存(从技术上讲,它仍然与Ryzen 9部件的单核访问能力相同),并将与英特尔的六核i5-10600K进行竞争,后者的零售价也与Ryzen 9大致相当。

尽管Ryzen 5 5600X处理器价格最低,技术上也是最慢的,但它的性能让我大吃一惊:与Ryzen 9 5950X类似,在单线程基准测试中,它完全超越了英特尔所能提供的所有处理器--甚至包括泰格湖(Tiger Lake)。

在更高的层面上,新的Ryzen 5000;Vermeer系列似乎与上一代Ryzen 3000《马蒂斯》系列出奇地相似。这实际上是出于设计目的,因为AMD在新处理器中充分利用了他们的芯片设计方法。

为了介绍一些术语,AMD创造了两种类型的芯片。其中一个有主要的加工核心,被称为核心复合模或CCD。这是一款基于台积电7纳米制程的产品。另一种芯片是带有I/O的互连芯片,称为IO芯片或IOD-这一芯片具有PCIe通道、内存控制器、SATA端口、与芯片组的连接,并有助于控制电力传输和安全。在上一代和新一代中,AMD都将其IO中的一个芯片与多达两个8核芯片配对。

这是可能的,因为新的核心小芯片包含用于互连、物理设计和功率限制的相同协议。AMD能够利用上一代平台和代的执行,这样当核心连接相同时,尽管内部结构不同(Zen 3与Zen 2),它们仍然可以以已知和成功的方式组合在一起并执行。

和上一代一样,新的禅宗3芯片设计有8个内核。

通过使新的8核Zen 3芯片保持相同的大小和相同的功率,这显然意味着AMD必须构建一个符合这些限制的内核,同时提供性能和性能效率的提升,以便做出更有说服力的设计。通常,在设计CPU内核时,最容易做的事情就是利用之前的设计,对其某些部分进行升级--也就是工程师们所说的“低垂的果实”,即以最少的努力获得最大的加速。因为CPU核心设计是有最后期限的,所以总会有一些想法永远不会进入最终设计,但这些想法会成为下一代最容易瞄准的目标。这就是我们在Zen 1/Zen+转到Zen 2时看到的。所以很自然,AMD做的最简单的事情也是一样的,但是Zen 3。

然而,AMD并非如此。在对AMD高级员工的采访中,我们了解到AMD有两个独立的CPU核心设计团队,他们的目标是在构建更新的、高性能的核心时相互超越。禅1和禅2是第一核心设计团队的产品,现在禅3是第二设计团队的产品。自然,我们预计禅宗4将成为禅宗3的下一代,“低垂的果实”将得到照顾。

在最近对AMD首席技术官Mark Papermaster的采访中,我们被告知,如果你从10万英尺的高度看核心,你可能很容易误认为Zen 3的核心设计类似于Zen 2。然而,我们被告知,因为这是一个新的团队,核心的每个部分都经过了重新设计,或者至少是更新了。密切关注这一领域的用户会记得,Zen 2中使用的分支预测器在Zen 3之前是不会出现的,这表明即使是核心设计也有可移植性的元素。Zen 2和Zen 3都建立在相同的TSMC N7工艺节点上(相同的PDK,尽管Zen 3拥有来自TMSC的最新良率/一致性制造更新),这也有助于提高设计的可移植性。

AMD已经宣布了一个重大变化,这对大多数对这一领域感兴趣的技术人员来说都是显而易见的:基础核心芯片不是有两个四核复合体,而是一个八核复合体。这使得每个内核能够访问芯片的全部32MB的三级高速缓存,而不是16MB,从而缩短了16到32MB窗口中的内存访问延迟。它还简化了芯片内的核心到核心通信。要做到这一点,需要做一些权衡,但总的来说,这是一场不错的胜利。

事实上,在整个核心地区存在着大量的不同之处。AMD已有所改善:

其中许多内容将在接下来的几页中进行解释和扩展,并在基准测试结果中进行观察。简而言之,这不仅仅是核心的更新--这些都是真正的新核心和新设计,需要在新的纸张上建造。

其中一些特性,比如更宽的缓冲器和更高的带宽,自然伴随着一个问题:与Zen 2相比,AMD是如何保持Zen 3的功率不变的。通常情况下,当内核变宽时,意味着必须一直打开更多的硅,这会影响静态功率,或者如果所有这些都同时使用,那么就会有更高的有功功率。

在接受Mark Papermaster采访时,他指出AMD在物理实现方面的能力是其中的一个关键因素。通过利用他们对台积电7纳米(N7)制程的了解,以及对他们自己工具的更新来充分利用这些设计,AMD能够保持电源中立,尽管进行了所有这些更新和升级。部分原因还来自AMD与TMSC的长期优质合作伙伴关系,能够在平面图、制造和产品之间实现更好的设计技术协同优化(DTCO)。

自第一代Zen推出以来,AMD的CPU营销团队一直非常准确地宣称其性能,甚至时不时地低估其性能。除了在单线程、多线程和游戏方面提升性能领先地位外,AMD还推出了几个逐代改进的指标。

AMD提供的关键指标是IPC从Zen 2升级到Zen 3+19%,或者更确切地说,当两个CPU都在4.0 GHz并使用DDR4-3600内存时,从Ryzen 5 3800XT升级到Ryzen 5 5800X+19%。

事实上,使用我们的行业基准,对于单线程性能,我们观察到每个时钟的CPU性能提高了19%。我们必须在这里向AMD致敬,这是他们第二次或第三次引用我们匹配的IPC数据。

在多线程SPECrate中,考虑到更快的内核也需要更多的主存带宽(这一代没有提供),绝对增益只有10%左右。这意味着存在一些瓶颈,如果更多的内核需要相同的资源,那么更高的IPC将无法帮助解决这些瓶颈。

在实际测试中,在我们的整个套件中,我们看到平均提升了24%。对于显式多线程测试,我们看到的范围从均匀性能到+35%,而对于显式单线程测试,范围从均匀性能到+57%。这归根结底是执行/计算限制的测试在内存限制的工作负载上获得更大的加速。

对于游戏,这个数字在1920x1080游戏中以+5%到+50%的形式给出,在高预设的情况下,将Ryzen 9 5900X与Ryzen 9 3900XT进行比较,这取决于基准。

在CPU受限设置(例如720p或480p最低设置)下的测试中,我们发现Ryzen 9 5950X与Ryzen 9 3950X相比,平均每秒帧数提升44%。根据测试的不同,性能提升的幅度从+10%到+80%不等,切尔诺贝利、Borderland 3、齿轮战术和F1 2019的关键收益。

对于我们更主流的游戏测试,运行在1920x1080,所有的质量设置都是最大的,性能提升平均在+10%左右。这从相同的分数(坦克世界,奇异旅,红色死亡救赎)到+36%(文明6,遥远的哭泣5),横跨了所有的色域。

也许最重要的比较是AMD Ryzen 9 5950X与英特尔酷睿i9-10900K的对比。在我们的CPU受限测试中,AMD在CPU受限的情况下获得了+21%的平均FPS胜利,范围从+2%到+52%。但在我们的1080p最大设置测试中,结果平均并驾齐驱,在-4%到+6%之间波动。(这一结果不包括我们测试中的一个异常情况,因为文明6号显示AMD赢得了+43%的胜利。)。

根据内核数量和定价,新的Ryzen 5000系列处理器与英特尔一些最受欢迎的Comet Lake处理器以及上一代AMD硬件非常接近。

在整个回顾中,我们将参考这些比较,并最终将每个处理器细分为其自己的分析细目。

由于这是我们对禅宗3的深度报道,我们将深入探讨一些细节。在接下来的几页中,我们将回顾一下:

当我们深入Zen3微架构时,AMD记录了他们过去几年的旅程,这是一个从2017年开始的成功故事,革命性的禅宗架构帮助AMD在经历了几年低迷的产品后重返竞争版图。

最初的Zen架构带来了52%的IPC提升,这要归功于一个全新的微架构,它为AMD带来了许多新功能,首次在公司的设计中引入了µop缓存和SMT等功能,并引入了具有大型(当时为8MB)L3缓存的CPU核心复合体的概念。该芯片采用14纳米FinFET工艺节点,是引领当今Zen3设计的新的微架构路线图的高潮和起点。

在以Zen+的形式进行了小幅更新之后,去年的2019 Zen2微架构被部署到Ryzen 3000产品中,这进一步推动了AMD在竞争格局中的成功。Zen2是AMD所说的原始禅宗设计的衍生品,然而,从历史上看,它包含了比你预期的更多的变化,带来了比你通常看到的更多的IPC增长。AMD认为Zen2是他们从最初的禅宗微架构中学到的东西的延续,修正并推出了他们最初打算在第一个设计中做出的设计目标更改,但未能在计划中的产品发布窗口及时部署。AMD还表示,它提供了一个机会,将未来Zen3的一些具体变化提前到Zen2设计中。

这也是AMD转向新的芯片设计的时刻,利用向台积电新的7纳米工艺节点的过渡,增加晶体管预算,用于将L3高速缓存大小翻一番,提高时钟速度,并极大地降低产品的功耗,以实现消费空间(16核Ryzen 9 3950X)和企业空间(64核EPYC2 Roman)核心总数的大幅提升。

在这种异质封装中,将尖端的高性能7纳米核心复合芯片(CCD)与成本较低的12/14纳米I/O芯片(IOD)捆绑在一起,使得AMD能够最大限度地发挥这两种技术的优势,最大限度地减少这两种技术的劣势--而AMD的主要竞争对手英特尔(Intel)过去和现在都在努力将10纳米产品推向市场。这是一场技术赌博,AMD曾多次表示,这场赌博是提前多年进行的,此后获得了丰厚回报。

这将我们带到今天的Zen3微体系结构和新的Ryzen 5000系列。正如前面提到的,Mark Papermaster提到,如果你真的从100,000英尺的高度看这个新设计,你会注意到它看起来确实与上一代禅宗微体系结构极其相似。事实上,虽然Zen3与它的前辈有相似之处,但AMD的建筑师们从一开始就进行了干净的设计,或者用他们的话说--“一次彻底的重新设计”。这实际上是一个相当大的索赔,因为对于任何一家公司来说,这都是一项相当巨大的冒险努力。ARM的Cortex-A76是据说是从头开始设计的最新的其他行业设计,利用了对不同设计团队多年的学习,并解决了需要对设计进行更具侵入性和更大改动的固有问题。

由于新的Zen3内核仍然展示了前一代设计的许多决定性特征,我认为AMD的“完全重新设计”更类似于对内核的积木进行解构和重建,就像你拆卸一套乐高积木并重新构建它一样。在这种情况下,Zen3似乎既有新的构建块,又利用了他们以前在Zen2中使用过的Set和RTL。

无论如何解释“干净的工作表”或“完全重新设计”,重要的一点是,Zen3在其完整的微体系结构方面是一次重大改革,AMD关注拼图的每一块,并试图平衡最终的整个设计,这与更传统的“衍生设计”形成鲜明对比,后者可能只触及和看到微体系结构的几个构建块的变化。

-提供另一代显著的单线程性能提升。AMD不希望仅在工作负载分散到所有内核的情况下才被降级为性能最佳。该公司希望迎头赶上,成为该领域无可争议的领导者,以便能够在市场上占据无可争议的地位。

-延迟改进,无论是在内存延迟方面,还是在核到核延迟方面,都是通过更多的缓存命中率减少有效内存延迟实现的,这要归功于单个内核可以利用的双倍32MB L3缓存,而内核到内核的延迟同样得益于芯片上整合的单个L3缓存,能够缩短芯片间的长时间传输时间。

-继续保持能效领先地位:虽然新的Zen3内核仍然使用台积电相同的基本N7流程节点(尽管在设计上有所改进),但AMD有一个限制,即不会增加平台的功耗。这意味着,任何新的性能提升都必须通过同时提高微体系结构的能效来实现。

AMD对Zen3微架构所做的所有设计更改达到了顶峰,该公司声称,在各种工作负载下,平均性能提升了19%。我们将在审查过程中进一步细分这一数字,但内部数据显示,我们与所有SPEC工作负载19%的平均提升持平,中位数为21%。这确实是一个巨大的成就,考虑到新的Ryzen 5000芯片的时钟略高于它们的前身,进一步放大了新设计的总体性能提升。

接下来,让我们看看是什么让Zen3微体系结构运转起来,以及与其前身设计相比它实际上是如何改进的,首先从核心的前端开始,包括分支预测、解码、操作高速缓存路径和指令高速缓存以及分派阶段。

从高层次上看,Zen3的前端看起来和Zen2是一样的,至少从框图的角度看是这样。基本构件是相同的,从AMD称为最先进的分支预测器单元开始。这将馈送到32KB指令高速缓存中,该高速缓存将指令转发到4宽的解码块中。我们仍然保持进入操作队列的双向流,因为当我们再次看到指令时,

.