自从我们涵盖了Marvell的Octeon TX2基础设施处理器以来,这是一年多的一年,从那时起,生态系统一直以非常快速的方式发展 - 无论是在Marvell和外面都在发展。今天,我们正在覆盖新一代Octeon 10家庭DPU,这是一个全新的SoC系列,建于TSMC的5nm流程节点,也是第一次ARM新的NeoVers N2处理器的特色。
Marvell开始使用一点历史和命名法,正在采用这类芯片和加速器类型的“DPU”术语。上一代Octeon TX和Octeon TX2已经是DPU,除名字之外,以前只是被称为“基础设施处理器”。随着最近的行业普及的级别以及竞争对手解决方案,似乎我们看到DPU术语现在被广泛接受了这种类型的多功能芯片设计的命名,所以由它有助于的实体在通过网络旅行时进程和移动数据。
从概述开始,新的Octeon 10通常具有我们在上一代中看到的相同多功能的构建块数组,这次升级到新的ACT IP块的新状态,并引入了集成机器等一些新功能学习推理引擎,新的内联和加密处理器以及矢量包处理器,都能够以虚拟化的方式操作。
这也是Marvell的第一个TSMC N5P Silicon设计,实际上是它在新过程中的第一个DPU,也是第一个公开宣布的新透明N2实现,具有最新的PCIe 5.0 I / O功能以及DDR5支持。
开始与Marvell视图作为DPU的重要补充,是一个新的内部ML引擎。 Marvell表示,IP的设计实际上是为专用推理加速器创建的,实际上已经完成了去年,但由于极其拥挤的竞争风景,Marvell无法将其带到市场上。相反,Marvell已选择将ML加速器集成到他们的Octeon DPU芯片中。 Marvell在此处指出,在同一单片硅芯片上具有推理加速器,直接集成到数据流水线方面对于实现这些类型的数据流使用情况所需的较高吞吐量处理的低延迟非常重要。
基本上Marvell在这里为NVIDIA的Nevid-Gen Bluefield-3 DPU提供了竞争对手解决方案,而在产品一代方面,在产品生成方面,由于第一个Octeon 10解决方案预计将在今年年底进行抽样,而NVIDIA预计BF3要抵达2022年。
此外,新的Octeon 10家族的新能力是引入矢量包处理引擎,其能够与当前生成标量处理引擎相比,可以大大增加5倍的分组处理吞吐量。
如上所述,新的Octeon 10 DPU系列是第一个公开宣布的硅设计,具有ARM最新的NeoVers N2基础架构CPU IP。几个月前我们已经涵盖了N2及其HPC v1兄弟姐妹 - 这是新一代核心是来自ARM的第一个ARMv9核心,与手臂中所看到的当前N1核心相比,承诺大40%的IPC增益服务器CPU,如Amazon Graviton2或Ampere Altra。
对于Marvell,性能改进甚至更加重要,因为公司正在从公司之前的内部内部“TX2”CPU IP为N2核心,很有用3倍高度的单螺纹性能隆起。去年年底,Marvell宣布已经停止了自己的CPU知识产权,支持ARM的新古代核心,并且今天重申该公司正计划在可预见的未来巩固ARM的路线图,这是ARM的新知识产权与其他行业球员(如安培或Qualcomm)对比的一点。
对于DPU使用而言,对于DPU使用情况是事实上,这是一个ARMv9 CPU,也具有SVE2支持,其中包含帮助数据处理和机器学习功能的新的重要说明。这实际上将是NVIDIA的BlueField3 DPU设计的巨大IP优势,仍然“仅”具有Cortex-A78核心,该核心是ARMV8.2 +。
Marvell使用完整的缓存配置选项为其N2实现,含义64KB L1i和L1D缓存,以及L2的完整1MB。该公司对SOC的集成仍然使用自己的内部网状网络解决方案 - 在非常高的级别上,这仍然在基本规范中看起来类似,网格中的256bit数据路径,以及包含2MB缓存切片的共享L3,缩放数量与核心计数一起。
在交换机集成和网络吞吐量方面,Marvell集成了1 TB / S开关,最多可达16 x 50G Mac - 但不应指出,此处的功能将根据实际的SKU和芯片设计而变化很多家庭。
在使用情况下,八焊10家族涵盖了4G / 5G RAN数字单位或中央单元,前销网关甚至VRAN卸载处理器的各种应用。在云和数据中心,解决方案可以在计算和网络吞吐量性能方面提供广泛的多功能性,而对于企业用例,该系列提供深度集成的数据包处理和安全加速功能。
第一个Octeon 10产品和样品将基于CN106XX设计,具有24个N2核心和2x 100GBE QSFP56端口,用于PCIe 5.0形状因子,可用于Q4。
在规格方面,Marvell造成了各种八联10家族设计的细分:
幻灯片注意:此上下文中的DDR5控制器是指40位通道(32 + 8位ECC)。 Marvell还指出,由于与前一代和竞争对手解决方案相比,它仍然使用SPECINT2006 - 它将发布2017年估计第一款硅准备就绪。
CN106XX是八龙10家族的第一芯片设计,录制出来,预计将在今年下半年进行采样。超越这一芯片,Marvell有3个其他八焊10个以下端CN103xx形式设计,只有8个N2核心,低于TDP,以及10-25W的低TDP,以及两个高端CN106XX,具有改善的网络连接,最后是DPU400旗舰通过最大36个N2核心,并具有最大的处理能力和网络连接吞吐量。看到的是,即使具有最大的实现,TDP也达到60W,远远低于当代CN98XX Octeon TX2旗舰实施,该旗舰实施在80-120W。这些附加部件尚未被占用,并计划在整个2022中进行采样。
Marvell表示,DPU出货量方面是行业领导者,在所有大型数据中心部署中都是普遍的。这个新的辛加10代似乎从技术角度来看似乎极具侵略性,具有前沿IP和制造工艺,这应该在快速发展的DPU市场中的竞争中表现出显着的优势。
发布一个看起来像一个真正,真正平衡的加速器的评论。 (我也很欣赏他们在L3上没有像许多醉酒设计一样吝啬。)
回复
由于具有*两倍*每核的性能,顶部模型在标本上击败了Graviton 2。它还具有两倍的缓存和每核的内存带宽。而且,所有这些都在60w ...它' s怪物,很可能优于大多数服务器都会卸货!回复
至少适用于LLC,它' s 4x每个核心的缓存。八聚体10是2MB /芯,GRAG2为512KB /芯。回复
对于有状态数据包处理,它们确实需要尽可能多的缓存。他们可以抓住芯片的上下文的数量可能成为严重限制因素。因为那里没有SMT,如果您必须为某些连接特定状态下芯片,核心仍然赤裸裸。回复
......以及用硬件预取人蒙上掩盖它的通常的伎俩' T工作,因为它们可以' t知道下一个数据包所属的连接。回复
> NVIDIA的BlueField3 DPU设计仍然是“只有”功能Cortex-A78核心,我不相信这一点,鉴于其预计的发布日期,但事实证明在GTC 2021主题演讲幻灯片中是正确的! https://images.anandtech.com/doci/16611/17056937.j ...回复
有趣的单位,特别是对于5G基站和网络。注意他们如何强调"无风扇"幻灯片中的操作!好奇,那些与英特尔' s x86的产品一起比较(如果有的话)如何抛出一些ml?此外,这些如何与华为在从TSMC启动之前与华为进行比较?回复
应该是:https://en.wikipedia.org/wiki/hisilicon#kunpeng_93 ...更多,请参阅:https://fuse.wikichip.org/news/2274/huawei- eppands ...我不和#39 ; T知道此内容是否是(仍然)准确的。回复