ARM V9架构解释了为什么NVIDIA需要购买它

2021-04-04 09:29:51

我们中的许多人一直在追求我们的大脑为什么Nvidia将花费为400亿美元 - 购买ARM持有人，这是一家筹码持有人，这是一家在销售额为20亿美元的销售阶段 - 自从该交易发生在2020年7月以来。当我们坐下来听到ARM V9架构的ARM视觉日卷漏斗，这将定义从IOT设备中的小型嵌入式控制器的处理器一直到数据中心的大量CPU，我们可能会发现它。

我们已经说过很长一段时间，我们相信NVIDIA需要控制自己的CPU未来，甚至与黄某开玩笑，它不需要购买所有ARM持有，以制作最好的ARM服务器CPU，他答复了这是一个真正的一个终身终身机会，可以创建价值，推动所有Nvidia技术 - 它自己的GPU用于计算和图形和Mellanox网络接口芯片，DPU处理器和切换ASIC - 通过ARM许可频道使它们全部为可延展的，但标准化为ARM许可模式不仅允许，而且鼓励。

黄将是第一个告诉您NVIDIA无法为每种情况创建每个处理器，并且确实没有单一公司可以。这就是为什么ARM生态系统不仅需要受到保护，它需要以培养和延伸，以便只有NVIDIA这样的相对重要的公司可以实现。（Softbank太分散了它的投资围绕全球的财务困境，这些困境已经变坏，基本上必须卖掉ARM来修复其资产负债表。这是NVIDIA的购买机会，这只是真正花费120亿美元的现金来获得手臂的控制;其余的是股票市场资本化的有趣资金，这在某种意义上是“免费”金钱，即Nvidia可以花费填补剩余的280亿美元。）

我们坐在这些采访中，并咀嚼了所有这些，并塞到了另一个有足够的面团的Tech Titan来做大事。但是，正如我们通过ARM首席执行官Simon Segars和其余的ARM技术团队观看了视觉日演示文稿，他们谈论将更多的向量数学，矩阵数学和数字信号处理拉到即将到来的ARM V9架构上。突然间，这一切都终于变得清晰：Nvidia和Arm都认为，在现代，大规模分布的世界各种各样的计算都将量身定制，以运行分析，机器学习和其他类型的数据操纵和交易处理或预处理本地尽可能且单个兼容的基材将是为大量工作负载创建此可塑性计算结构的最佳答案。这必然意味着两家公司绝对认为，在许多情况下，混合CPU-GPU计算模型的适用性不会且无法工作。

换句话说，NVIDIA的GPU计算业务对其扩展有限制，也许它比我们许多人在思考的那么低。摆锤将返回到具有嵌入式矢量和矩阵功能的CPU，专为特定算法的高度调整。对于需要在本地计算的中间边缘计算和端点IOT设备，这将是专门的，因为在数据中心中处理返回以便在数据中心处理的运输数据没有意义，无论是技术还是经济。

JEM戴维斯，一名机器学习部门的ARM和总经理，给出了一个完美的典范，这些经济力量在三年前推出了一系列的经济力量，并进入了更漫长的数据银河。

“在ARMV9十年中，合作伙伴将通过ARM AI在设备上使用更多ML的ARM AI创建未来，”戴维斯解释说。 “有超过八亿的语音辅助设备。我们需要在1美元的微控制器上进行语音识别。处理服务器上的所有内容只是不起作用，身体或经济上。云计算带宽不是免费的并且在设备上识别是唯一的方法。使用每天十次使用的云服务的语音激活的咖啡机将花费每年每年约15美元的设备制造商。计算ML对设备也有利于延迟，可靠性和至关重要的安全性。“

要将其带到家里，如果具有语音识别的咖啡机已使用四年，请在咖啡公司先生的数据中心咀嚼数据的语音识别成本将消除从该咖啡机的整个收入流，但是相同的功能，如果在专门针对这一非常精确的工作的设备上实施，可以在1美元以下完成，并且不会显着影响购买价格。我们认为，咖啡制造商制造商可能会收取语音识别的溢价，并在合理的短时间内收回在锅中添加到锅中的一些或全部投资，直到它变得正常。比如多十年前在咖啡机中的时钟和计时器，允许我们所有人都醒来，醒来到一杯热杯或乔，或者通过前一天晚上举行地面咖啡豆和水来呼唤你的任何东西。

对于咖啡机的群体为真实，对于从客户端回到边缘和通过数据中心，跨越的大多数设备都将持有符合亿万的设备。

在未来十年内将有数百万亿台设备上有数百万的这样的例子，这就是为什么ARMv9架构，ARM工程师计划做出如此多的改变。当然，这种变化将逐渐来，就像ARMv7和ARMv8架构一样，大多数人都熟悉的是，因为这些设计与智能手机和平板电脑的首选电机的崛起并增加了在数据中心的使用中的崛起。基础架构，包括但不限于服务器。

这是关键问题，它是我们在几十年中以多种略微不同的方式询问我们一直在观看IT部门的成长和进化：世界是否希望单一，可延展的，兼容的基材？在下十年中，我们的意思是，它会有手臂帮助它挥手告别x86？移动电话的崛起然后智能手机将ARM架构放在碰撞课程上，X86指令集开始于1997年推出诺基亚6110手机和2007年的Apple iPhone推出。

随着2010年的服务器芯片制造商Calxeda的推出，我们认为某些东西可以为服务器资金提供X86跑步，就像RISC / UNIX和RISC / UNIX在数据中心的前几十年中为专有的CISC做过RISC / UNIX所做的那样。随着ARM服务器芯片制造商来到过去，我们在过去的十年中观看了。但今天它是不同的。亚马逊Web服务已经是世界上最大的ARM服务器制造商，其GravitOn2芯片，看起来微软可以在自己的ARM服务器芯片上工作。安培计算也是一个很好的ARM服务器处理器。富士通的A64FX是在日本的“Fugaku”超级计算机上取得的响亮成功，欧洲和中国欧洲的SipeAll也在继续为系统投资新的Cheppery。

尽管所有的失望 - 以及一些成功 - 与服务器迄今为止，很难打赌。由于NVIDIA不稳定，因此在其400亿美元的收购中占上风，剧本和势头在ARM架构的一侧。（我们不相信NVIDIA将改变ARM的许可，并以黄本人拍摄的脸部价值，NVIDIA将更多，而不是少，技术通过ARM许可管道。）在他的主题演讲中，塞加尔斯在2021年底之前， ARM的合作伙伴将根据其架构运送累计的2000亿设备。前1000亿花了26岁，因为橡子电脑演变成高级RISC机器并传播成臂持股。第二亿筹资芯片（2021年底）只需五年即可出售。在2021年底和本十年的末期之间，塞加尔斯预测，ARM将出售另外3000亿芯片。如果历史是任何指导，那么这是2021年每年的200亿筹码的运行率，但每年约有550亿次。ARM部署的变化率本身希望加速。

这些ARM芯片中的大部分将在数据中心，在不同的边缘级别，并且在端点内仍有待观察。据IDC称，虽然ARM服务器出货量在第四季度的第四季度增加了4.5倍，但它来自足够小的基础，这在数据中心服务器中没有真正影响英特尔的霸权。正如我们多年前的报道，ARM希望到现在占20％的服务器出货量，并且在一点上将期望提高到2020年的25％的货物。和EPYC处理器的重新出现并没有帮助。但只有傻瓜会算枪。正如我们几个月前讨论的那样，希望为ARM服务器的永恒泉。

ARMv9架构肯定有服务器和其他设备，并且塞加尔斯认为世界上不会有一点数据，这些数据不会在某种程度上取决于或最终在基于ARM的设备上。我们认为，手臂在服务器中代表可能需要五到十年。塞加尔斯和ARM团队并不足够愚蠢地在那个旧地面作为建筑卷展栏的一部分，特别是仍未完成的NVIDIA收购。但显然，NVIDIA可以可信地使得争论之一是，在世界服务器内需要更多的竞争和更多的创新。

Richard Grisenthwaite是公司首席建筑师的另一个ARM系列，自1990年以来，概述了ARM架构的演变，并在即将到来的ARMV9架构上拉回窗帘。我们已经将这两个图表堆叠成一个，以便您可以在适当的角度下看到它。

就我们所关注的区域而言，ARM没有成为一个可能的服务器指令，直到40位存储器寻址（LPAE），硬件辅助服务器虚拟化和矢量浮点（VFP）单元和高级SIMD扩展（它制作整数）浮点向量指令本机制到架构）加入ARMv7。但它真的采取了2011年推出的ARMv8架构，其内存扩展到64位，制作一个好的服务器芯片，并且在过去的十年中，已经添加了这种架构的技术，以使其成为一个非常好的指令集对于服务器芯片。

“架构不是静态的事情，”格里斯坦瓦特解释说。 “我们继续创新和不断发展，以满足计算世界的不断变化的需求。自从我们在ARMv8中介绍64位处理以来，我们已经添加了许多扩展，例如改进的虚拟化支持，添加Float16和Bfloat基本上提升了机器学习的性能，以及许多安全增强功能，包括增加对返回的返回的编程和支持安全管理程序的恢复力。创新ARM架构永远不会停止。“

今天推出的ARMv9架构在技术上被称为ARMV9-A架构配置文件，具有“应用程序”的简短，并且意味着指定客户端和服务器设备的最完整功能。 R简调是用于“实时”的用途，M个配置文件适用于不需要全套功能的“微控制器”，并以低成本和低功耗使用。我们将很快添加R和M个配置文件，我们认为，该功能集将根据您制作芯片，ARM芯片买家和竞争风景的ARM许可证人的输入，根据市场的所有ARMv9档案扩展。

在ARMv9架构中首次要注意的是，它是ARMv8的超集，绝对向后兼容。没有那个，手臂在水中死了。

计算前面的第二重要是支持可缩放矢量扩展2，或SVE2矢量处理。

ARM与富士通合作，创建原始SVE向量数学规范，该规格是在富士通的A64FX处理器中实施的，在日本riken实验室的“Fugaku”超级计算机的核心。这些是512位宽的SIMD处理器，支持FP32和FP64数学，如您所预期的，但也是FP16半精度和INT16 / INT8点产品处理 - 后者混合精密格式对于数字信号处理和机器学习都很重要。

ARM自己的“ARES”N1处理器核心设计不支持SVE，但是新代“宙斯”V1核心有一对与SV2兼容的一对256位矢量单位，“Perseus”N2核心将有一对128位核心单位。未来“POSEIDON”NeoVerse V2和N3核心我们认为将支持SVE2矢量单元，其中包含上图中概述的扩展功能。

“该技术以可扩展的方式设计，以便使用超级计算机的概念可以跨越广泛的产品，”格里斯坦Waite说。 “我们添加了更高的功能来创建SVE2以增强可缩放的矢量扩展，适用于5G系统以及许多其他用例，例如虚拟和增强现实，以及CPU内的机器学习。在接下来的几年里，我们将进一步扩展这一点，在CPU内执行基于矩阵的计算的实质性增强。“

这肯定不会听起来像是一个只是将硬数学问题卸载到GPU的公司。

ARMv9架构的最大部分必须与处理器中的安全模型完全重新加工，以使ARM更好地优于X86处理器，除此之外，它可能有点能力效率较大，因此它可能花费稍低一点。虽然这些很重要，但公司可以在客户端，边缘和数据中心设备上部署更安全的Chechpery的想法是我们认为世界各地的IT组织将能够落后。

一项新的安全技术被称为内存标记扩展，这将使黑客更加困难，以利用隐藏在世界代码中的时间和空间中隐藏的漏洞。

“分析世界软件中报告的大量安全问题，令人沮丧的现实是许多问题的根本原因真的恢复到了过去50年来轰炸计算的相同旧记忆安全问题。两种特别常见的记忆安全问题 - 缓冲溢出和自由后使用 - 多年来似乎非常持久。问题的巨大部分是他们在被发现和剥削之前经常存在于软件中。“

虽然这是一个复杂的功能，但是该想法是用数据本身封装存储在存储器中的数据的可访问性信息 - 我们估计的面向对象的安全性。如果指向记忆的指针具有标记，并且当应用程序尝试访问存储器时标签与存储器不匹配 - 或许存储器已移动或访问超出范围 - 标签检查失败，内存访问被拒绝。由于缓冲区溢出并在自由的黑客攻击后使用，不再访问内存。

我们经常讨论大约20％的价格/性能优势足以改变芯片指令集。这种安全价值是什么，特别是如果它可以透明地对应用程序进行？我们将在剑桥大学的Cheri项目及其衍生工程莫雷洛的了解更多信息，即Arm Holdings正在与微软，谷歌，剑桥大学和爱丁堡大学，这将在ARM延伸中实施内存标记ARMV9架构。不是什么，但IBM的专有CISC处理器在1988年的AS / 400行使用的信息中使用的内存标签只是这个原因，这一能力搬到了1995年的电力筹码，并且仍然在我今天的IBM我的平台上。也就是说，IBM本身尚未使用内存标签进行安全性，而是提高系统性能。因此，使用似乎是新的。

ARMv9中的其他新功能称为REARMS，它为在ARMv8生成期间进化的可信固件添加了一个新的，安全的地址空间扩展。

一个王国是一种内存分区，它看起来像是，至少根据arm的开源软件副总裁Mark Hambleton给出的解释。因此，由于今天由虚拟机管理程序完成的，而不是托管虚拟机，而是通过管理员所做的，每个VM将托管在从系统中的其他VM中围绕的受保护地址空间托管，并且来自无抵押区域操作系统正在运行。我们有的问题是：为什么有一个虚拟机管理程序，如果领域经理可以完成所有这一切雕刻和保护。

这对ARMv9-A架构来说是一个非常高的水平，可以确定，我们将从ARM说的内容中了解更多信息。但是真正的外带是，ARM相信设备内的专业化处理以及跨设备作为唯一一段愚蠢的法律达到Dennard缩放的方式。像这样：

在未来十年中，软件将不得不与硬件上荒谬的规模共同设计，并且概念构成大卷芯片的想法将会发生变化。它与具有太多黑色硅的通用平台之间的平衡行为是完全平衡的，但每单位更便宜，以便现在具有特定工作负载的特定功能的专门设计的ASIC。

这将是一个，大量的硬件 - 软件工程头痛。这么多选择，也许太多的选择。

欢迎来到每个人。糟透了，不是吗？至少手臂及其许可证 - 也许和NVIDIA一起 - 将尝试帮助。从我们直接从我们到收件箱的一周中的亮点，分析和故事。

http://www.nextplatform.com/2021/03/30/arms-v9-architecture-explains-why-nvidia-needs-to-buy-it/

E3 2021泄漏表明PayWall，NVIDIA流; ESA说它会“免费”

2021-4-2 4:0

如何指出“Switch Pro”泄漏可能指向NVIDIA的Megaton Mobile游戏计划

2021-3-26 20:57

报告：下一个任天堂交换机将通过NVIDIA的DLSS在电视上提供4K

2021-3-23 16:48

NVIDIA现在提高了GeForce，现在订阅计划每月10美元

2021-3-18 22:32

tags users