LightMatter的火星SoC弯曲光线来处理数据

2020-08-26 12:23:02

慢速晶体管让你情绪低落?只需通过硅发射激光即可。这是基于硅光子学的计算背后的基本理念,而且它似乎正在接近现实。LightMatter在其新的火星SoC中采用了这种方法,这是专门为人工智能推理工作负载设计的,但这项技术最终可能会耗尽到通用芯片上。该公司在2020热筹大会上公布了其工作中的火星测试芯片,该芯片可以弯曲激光产生的光,使计算成为可能。该芯片兜售一些令人印象深刻的规格。

新的玛氏SoC标志着向前迈出了几个基本步骤,可以让光学计算更接近主流,该公司甚至分享了一张可以容纳多个SoC的大型晶片规模光学设备的照片(上图)(下图)。

LightMatter声称,光子学核心以通过光学张量核心的光速运行,将带宽提高了10倍,同时将延迟从基于电子学的芯片的典型100 ns减少到惊人的100皮秒(提高了1000倍)。该芯片可以用标准的CMOS制造工艺制造,这意味着它不需要外来材料,可以在现有的晶圆厂制造。与量子芯片不同,它也可以在标准温度下运行。

内核只消耗1微瓦的功率,这比电子芯片消耗的典型1毫瓦的功率又提高了1000倍。光子模块是3D堆叠设备的一部分,该设备包括激光器和14 nm ASIC,用于处理I/O操作等数字工作。光学核心本身使用的计算功率几乎为零,但缩小到SoC级别,整个设备在负载下只消耗3W的功率。LightMatter声称已经在与类似的晶体管驱动芯片相同的芯片面积内实现了这一壮举-这意味着与普通处理器相比,它将是一个类似的紧凑型解决方案。

玛氏SoC为计算效率的大幅提升奠定了基础,但该公司尚未公布最终性能数据,只是表示最终产品比基于电子技术的设备快三个数量级。目前,完成的SoC可以在标准的PCIe连接的测试设备上运行。尽管如此,该公司还是取笑了一种晶片规模的交换光学互连,这种互连可以容纳多个光电子单元,以及通过COW(晶片上芯片)3D堆叠连接的其他元素,如存储器。这意味着这些芯片正在向现实世界的实际使用靠拢,该公司概述了未来的几项改进,这些改进可能会在未来带来更令人印象深刻的性能。

LightMatter在其热点芯片演示中分享了深入的设计细节,我们已经尽最大努力将其归结为以下易于理解的术语。

转向光学计算的理由非常简单:从转移到更小、更密集的处理节点的频率改进率已经下降,因此每一代新芯片的性能提升都变得不那么明显。当我们正在接近晶体管开关效率的基本极限时,光子并不一定要遵循同样的规则。为了重新设置性能时钟,LightMatter创建了一种多芯片设计,将晶体管密度的优势(仍使用ASIC作为解决方案的一部分)与光学计算的速度和效率融合在一起。

这一切都始于MZI(马赫·曾德尔干涉仪,第一张图像)。激光器将一束光子射入该装置,该装置有一个硅波导来引导光(是的,光可以通过硅传播)。波导将流分成两束,这里的基本概念是为每束创建不同的相移。当两束光束在波导末端回到一起时,这会产生建设性或解构性干涉,然后将其作为输出进行观察/测量。听起来很简单,对吧?

真正的创新来自于制造移相器。LightMatter对如何做到这一点有几个选择,但他们发现,简单地弯曲硅波导,从而使光线通过它们,就会产生相移,同时仍能满足公司对功率和速度的要求。该公司使用纳米光学机电系统(NOEMS-是的,这是一张嘴),以一种相当创新的方式弯曲波导。

波导悬浮在空气中,然后向周围的一组电容器施加电荷,这会导致波导弯曲。LightMatter表示,这项技术需要的功率非常小(几乎为零,漏电极小),而且电容器可以在几百GHz下工作。

有了这个基本的构建块,该公司通过将输入信号组合成对的定向耦合器创建了更复杂的结构,最终结果是能够实现矩阵向量乘法功能。

然后将这些结构组合成更大的阵列(可扩展到1000),以产生更强的计算能力,而数据在阵列中传输的延迟就是光速。最终结果是64X64矩阵*64元素向量,它可以在一个周期内(相当于)进行8次运算。LightMatter没有具体说明整体时钟速度,但表示是GHz。

通过阵列的带宽以太赫兹衡量,因此设备中的其他电子设备成为限制因素。数据通过相当标准的使用电压来操纵激光器的技术馈入设备,离开设备的光被馈送到一系列转换器中,将其重新转换为数字代码。这是一个明显的瓶颈,转换消耗了终端设备的大部分电力。

光子器件的计算性能随着面积的增加而扩展,就像在普通芯片中一样,因此堆叠更多的阵列可以创造更高的性能。延迟也会随着单元的增多而增加,但LightMatter声称,1000x1000单元阵列的延迟仍远低于纳秒,比标准芯片低3倍。

阵列内部使用的功率可以忽略不计,虽然激光功率通常是光子芯片功耗的最大贡献者,但它只消耗几毫瓦。LightMatter表示,唯一有意义的功耗来自于将数据与光信号相互转换,这发生在阵列的两边。

事实上,向阵列添加更多光子计算单元可以提高效率-与功耗增加相比,您可以获得二次性能扩展。换句话说,与额外消耗的电量相比,添加一个单元将使您的性能提高四倍。相比之下,性能和功率与基于标准晶体管的芯片呈线性扩展,因此效率提升并不明显。

LightMatter将采用标准GlobalFoundries 12 nm光子工艺的90mm2光子计算单元与50 mW激光器和14 nm ASIC(50mm2,30MB SRAM)组合成一个3D堆叠的多芯片模块。所有这些都通过低功耗模拟I/O接口连接,将数据传输减少到1 mm。

整个设备的面积为150mm2,总延迟小于200皮秒(仅包括模拟和光学转换,不包括数字转换)。ASIC处理一些光子学核心不太适合的人工智能操作,并且还提供到外部接口的连接。最终结果是一款具有3W TDP的SoC,它在标准数据中心运行温度下运行。

目前,测试芯片搭载在PCIe连接的设备上,但如本文顶部所示,它最终将与许多其他芯片一起搭载在大规模晶片规模的动态交换光学互连上。光电子单元将使用COW(晶片上芯片)3D堆叠安装在晶片上。这将有助于解决与数据移动相关的功耗问题,数据移动通常比计算消耗更多的电力。LightMatter声称,使用光子学,数据传输可以从使用几十瓦减少到个位数微瓦。

LightMatter表示,这些设备将与所有标准深度学习框架接口,如TensorFlow、PyTorch和ONNX、编译器和模型交换格式。

最后,LightMatter表示,这款设备的速度和能效都令人难以置信,但也有发展的空间。即使在今天的光纤系统中,不同的波长和颜色也可以将多个数据流编码成一个数据流,从而提高性能。LightMatter表示,这些相同的技术最终可能会被用于其光子学核心,以提高设备的性能。

长期以来,光计算的梦想一直未能实现,至少在成本效益足够高的情况下可以看到广泛的部署。LightMatter的设计采用了标准的CMOS制造技术,因此可以想象它可以被蚀刻在标准晶圆上。当然,如果该产品能够通过实验室测试,我们预计领先的设备将会相当昂贵,但在计算和数据移动方面的省电可能会抵消这一点。

该公司尚未分享硬性能数据,而是表示,该解决方案比基于电子技术的解决方案(即最终时钟频率)快三个数量级,但表示,随着其产品更接近市场,它计划分享更多信息。LightMatter表示,生产单位将于2021年秋季到货。

虽然以光速进行计算听起来令人眼花缭乱,但事实是,电脉冲的运动速度与光速大致相同。这种芯片声称的优势似乎主要来自这样一个事实,即从计算上讲,这似乎本质上是一个模拟张量核心,而不是数字张量核心。很好,如果你正在构建一个人工智能集群...。但我认为它不会很快取代通用CPU。

回覆。

事实上,将更多的光子计算单元添加到阵列可以提高效率-与功耗增加相比,您可以获得二次性能扩展。换句话说,与额外消耗的电量相比,添加一个单元将使您的性能提高四倍。#34;……。应该是……换句话说,与额外消耗的电量相比,添加一个单元会给您带来三倍以上的性能。";!00%已经烘焙成1X,400%烘焙成2X(二次),因此改写这句话,因为与额外耗电量相比,性能提高400%-100%=300%,2X-1X=1X。你们都不能做正确的2位计算!哦,我不能等我的16位张量霸主在公元2100年以后的某个时候。独角兽硬件。

回覆。

..。应该是……换句话说,添加一个单元将使您的性能提高三倍。

实际上,如果“更多”这个词的本意就是“更多”,那就是正确的。就像是表演的四倍。

回覆。

实际上,如果“更多”这个词的本意就是“更多”,那就是正确的。就像是表演的四倍。

与额外耗电量相比,性能提高了4倍,2X-1X=1X。动力加倍,性能翻两番,现在就说得通了。

回覆。

事实是,无论如何,电脉冲的运动速度与光速大致相同。

我不同意。真正的电线不是理想的导体,甚至不是理想的电阻器。它们也有一些电容。这使得该电路成为RC电路,也称为RC延迟电路。给电容器充电需要时间。

回覆。

所给出的数字比传统数字电子学在等比特深度下所能达到的要差。

回覆。

很好,如果你正在构建一个人工智能集群...。但我认为它不会很快取代通用CPU。

我想这项技术可以用来极大地提高光线跟踪性能。

回覆。

然后呢?你也不认为这种光子芯片是理想的真空,是吗?假设它的有效IOR类似于光纤线,那么信号、信号和电线将以大致相同的速度移动:0.6-0.7摄氏度。

回覆。

虽然以光速进行计算听起来令人眼花缭乱,但事实是,电脉冲的运动速度与光速大致相同。这种芯片声称的优势似乎主要来自这样一个事实,即从计算上讲,这似乎本质上是一个模拟张量核心,而不是数字张量核心。很好,如果你正在构建一个人工智能集群...。但我认为它不会很快取代通用CPU。

如果粗略地说是指60%左右,那么当然可以。电信号通常在光速的60%左右移动。但这里的人挑剔的是4倍,而不是3倍。因此,我会挑剔地说,60%不是大致等同于。

回覆。

我想知道考虑到光处理器的外星人特性,是否有安全方面的好处。你能用这样的东西在安全存储(比如生物特征数据)和主机系统之间创建一种防火墙吗?我也看到了网络的一些好处。想象一下,您的长途光纤直接进入处理器,然后分配给子光纤网络,而不必在每个节点向下转换为电信号并再次恢复为光。可以将跨洲或跨洋传输的延迟时间缩短几毫秒。同样,它会对辐射更有免疫力吗?带有GHz处理器或卫星的空间探测器,可以在围绕木星和土星的近距离轨道上长时间存活。看起来那里可能有一些潜力。希望他们能继续开发这项技术,并解锁其中的一些。

回覆

显示更多评论