半导体工程与Moortec首席技术官Oliver King、Ansys首席技术专家João Geada、Synopsys工程高级副总裁Dino Toffolon、西门子旗下Mentor公司工程总监Bryan Bowyer、ARM物理设计集团营销高级总监Kiran Burli、Cadence数字和西诺夫集团高级产品管理集团总监Kam Kittrell、副总裁Saman Sadr坐下来讨论电源优化问题。下面是该讨论的摘录(第1部分)。
SE:在高级节点的能力和性能方面,以及在人工智能处于边缘的情况下,最大的挑战和权衡是什么?
金:当我们移动到16/14 nm的时候,速度有了很大的提高,泄漏下降了很多,每个人都从能够燃烧更多的能量做事情中受益匪浅。当我们从7 nm下降到5 nm时,泄漏又开始重新开始攀升-几乎回到了我们在28 nm的位置。人们现在不得不平衡这些东西。这就是说,与我以前看到的相比,骰子的大小是巨大的。人工智能需要非常大的骰子。他们肯定有不同的平衡要做。这并不一定是关于他们是否想烧掉权力。现在的问题是,在这么大的骰子里,他们能获得多大的物理能量。你如何输送电力,然后如何冷却整个东西?
Toffolon:随着一些较大芯片的拆分,特别是在能够横向扩展能力方面的AI领域,真正的挑战在于接口,并试图优化延迟、带宽和覆盖范围。有不同的包装技术可以在该领域实现不同类型的解决方案。这就是我们看到很多电力优化和电力勘探活动正在进行的地方。它正在努力优化这些芯片到芯片或芯片到芯片的链路,并权衡这些互连的封装成本和带宽延迟。
Kittrell:最大的担忧是总功耗和其中一些芯片产生的热量,特别是大型网络芯片。令人惊讶的是,许多人都不知道是什么在消耗这么多的电力。他们需要预先获取工作负载信息,以便进行动态电源优化。我们关注漏电已经很长时间了,一旦我们切换到FinFET节点,动态电源就接手了,这就成了一个大问题。另一个令人担忧的问题是多核芯片的出现。在DFT中,这个问题总是有缓解的,所以当你用IR Drop测试芯片时,你不会杀死它。这在任何时候都会成为打开多个内核的问题。您可以使系统过载。你不能在外面放一个空调大小的电容器来降低di/dt,所以必须有更聪明的解决方案。最重要的是,这是一个有趣的时代,因为机器学习和人工智能正在导致计算机体系结构的复兴。人们正在为特定领域的体系结构提出新的功能,但他们希望能够快速地预先调查这些体系结构,看看它在硅片中会是什么样子,并在开始时进行快速权衡。但电源是我们在7 nm和5 nm采访的大多数客户关注的焦点。
鲍耶:在边缘,人们正在建造这些新的人工智能处理器,这与人们需要硬件加速器的CPU经历的事情是一样的。他们必须构建定制的硬件来节省能源,节省电力,就像你对任何CPU或GPU或他们使用的任何处理器所做的那样。但真正的问题是,‘数据是如何移动的?’你有这些巨大的筹码。您需要以一种高效的方式在芯片中移动所有这些数据-以一种不会消耗您所有能量或电力的方式。有数百种架构可供选择。有了人工智能,有太多的研究正在进行,很难跟上。你甚至无法阅读今天所有的研究论文来了解什么是最好的架构。因此,大多数团队一开始都不知道他们是否能完成比赛。有了高层次的综合,这就是我被引入的地方,团队已经意识到他们将不得不构建和测试一些东西,然后再次构建以使其正确。
Burli:如果你开始从架构的角度来看待它,你可以在NPU上做哪些根本上不同的事情?这是不同的。这不是一回事。考虑数据流的移动以及如何处理这些数据是极其重要的。您如何才能针对这一点进行优化呢?你需要确保你不是在复制,因为这将是大量的设计,人们试图在更小的区域内塞进更多的设计。当所有这些电路都接通时,你需要知道电力发生了什么,以及你是如何获得从那里产生的所有热量的。那是
盖达:我们看到了更多网线受限的芯片。我们已经达到了制造业的基本极限。你做的芯片不能超过网线限制。这就是为什么突然之间,人们对晶片规模的集成、3D-IC以及诸如此类的东西产生了浓厚的兴趣。我们的空间用完了。我们有很多功能,但我们没有更多的空间来放东西。所以一旦你达到了网线极限,突然之间你就不得不开始做一大堆额外的技术来尝试让功能发挥出来。这就是为什么我们开始看到更多特定于应用程序的设计。您总是要为通用架构付费。因此,现在我们开始看到特定于应用程序或领域的设计出现了真正的大复兴。有一大堆人工智能芯片家族,因为他们都专注于略有不同的问题版本。无论您是在边缘进行推理,还是在云端、大数据、高性能方面进行推理,他们看待问题的方式都略有不同,最终形成了不同的架构。这给设计带来了一大堆压力。当每个人都在设计通用CPU时,有很多信息共享。这在整个行业都很容易。由于每个人都在做自己的特定版本的体系结构,他们必须找出挑战在哪里,硅会在哪里咬你。很多人把重点放在设计方面。我们倾向于更多地关注设计最终是否会在您期望的性能下以正确的功率预算为您工作。由于网线的限制,人们开始探索更多的维度。SerDe必须在芯片上,还是可以在芯片上?我们如何才能以合理的收益获得可预测的最佳性价比。很难在5 nm处进行好的模拟设计,但我们知道如何在不同的节点上做到这一点。也许可以将一些组件移到不同的节点中,并将它们堆叠在顶部。但是,在如何在所有操作条件和性能约束下验证复杂的异构系统方面,这只会带来一大堆不同的问题。
Shokrollahi:对我们来说,从7 nm到5 nm是件麻烦的事,但我们必须这样做,因为我们的客户希望我们这样做。我们没有看到太多的优势。一条线路不会有那么大的规模,而且它的成本很高。这就是为什么许多客户来找我们,试图将他们在高级节点中必须做的硅量降到最低。他们希望将内容保留在较旧的流程节点中,并在MCM内部的内容之间进行I/O。与我交谈过的大多数客户表示,如果他们不必转到较低的流程节点,他们就不会这么做。他们会坚持他们已经拥有的东西。摩尔定律说,事实可能证明,用分开包装和相互连接的较小功能来建造大型系统可能会更经济。大型功能的可用性与功能设计和施工相结合,应该使大型系统设计的制造商能够快速且经济地建造相当多种类的设备。在那篇论文中,他不仅预测了摩尔定律。他使用独立的芯片和功能来预测芯片。
SE:那么我们将看到3 nm芯片作为一个完整的芯片,还是我们会看到3 nm芯片与其他芯片相连?这对动力和性能有什么预兆呢?
Shokrollahi:3纳米的时间框架可能还为时过早,无法看到芯片在整个行业的全面出现。也许是下一个,不管下一个是什么。我们确实看到了,但我不认为这是推出芯片的相同时间框架。
萨德尔:对于大规模推出的预审芯片来说,这似乎是正确的。但就铺开小芯片而言,7 nm和5 nm已经开始解聚。芯片和接口产品允许SoC做最好的事情,将数据传输交给更智能的芯片,就像你在5G类基础设施中看到的那样,以一种类似于添加ADC或DAC的方式进行集成。这些技术不会很快传递到下一个节点,而且已经有了针对这一点的芯片。也许它们不在你会在路上看到的音量里,但它已经开始了。我们确实看到了这一趋势。
托夫隆:我同意。已经开始了。我们清楚地看到了芯片拆分的活跃设计,他们使用芯片到芯片的连接来实现互连。一些商业设备也已经在这么做了。我们还看到,没有万能的解决方案。有一些筹码正在被分解。实际上,有一些死亡正在被聚合。有些情况下,设计是按比例进行的,再次复制多个芯片以进行横向扩展。其中的每一个典型地进入不同的包装技术,具有不同的覆盖范围和不同的损失。它们通常需要不同的解决方案,具有非常、非常不同的
鲍耶斯:想象一下,你是一名架构师,你正在试图弄清楚如何在所有这些芯片上分布你的硬件。如果你弄错了怎么办?想象一下,当你走到最后,你意识到你的一个芯片上的空间已经用完了。你怎么把这玩意儿推到别的地方去呢?这实际上是关于功率和面积的问题,以及你可以为应用程序在这些上面放多少钱。今天,我们看到关于如何分配这些东西的保守决定。你知道所有的东西都会放在那里,一切都会好起来的。但是一旦你接触到一个从来没有人制造过的新芯片,你不能确切地确定它会有多大,那就会成为一个非常困难的问题。
Toffolon:很大一部分电力来自互连。了解所有这些链路的功率分布真的很重要,因为通常这些类型的链路都是为最坏情况而设计的。大多数供应商都会报出最坏情况下的功率,但现实情况是,根据工艺、电压或温度,甚至通道本身,高级IP链路或串行链路中有很多挂钩可以真正优化每条链路。能够在宏观层面上理解并建模电源-不只是取单个数字并汇总,而是真正了解整体解决方案的名义电源配置文件类型-对于预先建模至关重要。
金:我们看到一些客户正在建造芯片系统,你可能会有一个5 nm的芯片,上面有很多计算,然后传感器可能会在28 nm上完成。但与此同时,客户之所以选择5 nm和3 nm,是因为它们已经受到网线限制。否则,他们不会做3纳米的芯片。他们会做一个5纳米的芯片。婴儿还不是很普遍,尽管有一些案例是有意义的。3纳米市场是由高性能计算和人工智能驱动的,这意味着巨大的芯片,而且很多芯片,在数据中心的机架上,消耗着大量的电力。我们面临的挑战之一涉及到对大量传感的要求。有了Signoff,芯片在一个PVT点合二为一的日子早就一去不复返了,特别是如果你有一个网线大小的芯片的话。在过去的两三代人中,我们已经看到这些芯片上的传感器数量在增长,从1到2代增加到数百代,我们现在正在讨论我们可以做些什么,接近1000个。这是通过许多芯片发送的大量数据。他们开始从跨一个芯片发送数据到跨多个芯片发送数据,然后在整个系统(可能是数据中心或数据中心内的多个服务器机架)之间进行功率权衡。您不必在特定的时间点运行特定的芯片。你基本上是在平衡你的电费。也许,这与芯片设计者通常采取的角度不同。但是,能够打开和关闭东西,基本上可以上下转动灯芯来应对用电量的动态变化,这是一个有趣的空间。