ENFabrica采用超级I / O瓶颈

2021-06-25 12:00:24

不是那么多,分布式计算意味着聚集在一起一堆廉价的X86服务器,并用某种形式的中间件配备,允许工作分布在数十万到数千个节点。这种戒除方法,这增加了软件堆栈的复杂性,因为正常的SMP和NUMA缩放技术,在十几个或两个节点上具有非常紧密的耦合计算和共享存储器,根本无法进一步伸展。

这些分布式系统难以构建,与我们在下一个平台上开始称之为“超广频系统”的人相比,这是儿童的发挥,这是在不断变化的“超级分布系统”中,因为分解和可兼容性在同一时间进入了系统架构师的想象力可以使用更广泛和更广泛的计算,内存,存储和网络组件 - 预计将以灵活而不是静态方式使用。

问题说,说出一个名为Enfabrica的隐形模式启动的共同创始人,就是这个新的超分布式架构比储存良好的酒吧有更多的瓶颈。他们说他们已经开发了硅,系统硬件和软件的组合,这些软件将创建一个更好适合超广频系统的新I / O架构。 enfabrica尚未从隐身模式下覆盖,但该公司的创始人们为我们达到了我们的第一轮资金 - 来自Sutter Hill Ventures的5000万美元 - 并希望在最终阐述他们在现代分布式系统中看到的问题。披露他们如何解决这些问题。

Enfabrica于罗氏·萨卡尔成立于2020年,其首席执行官Shijeet Mukherjee,其首席发展官员以及其他创始人,其成立顾问是Christos Kozyrakis,是斯坦福大学电气工程和计算机科学教授过去两位在伯克利除了David Patterson作为他的博士顾问,几十年来,他在加利福尼亚州加利福尼亚州加州大学。 Kozyrakis在斯坦福国运行MultiScale建筑和系统团队(MAST),并在谷歌和英特尔在其他组织中完成了研究所;他在矢量处理器,操作系统,云管理员的广泛工作以及用于交易存储系统的广泛工作。

Sankar从多伦多大学和宾夕法尼亚大学的沃顿文学学校获得了学士学位的电气工程,并在赛普拉斯半导体中度过了七年的应用工程师和芯片建筑师,并且广泛的产品营销和管理总监世卫组织驾驶五代“三叉戟”和“战斧”数据中心切换ASIC,这些交换ASICS超过3亿港口销售和生成数十亿美元的Broadcom收入。

Mukherjee在俄勒冈大学获得了俄罗斯大学,并在加入思科系统作为其技术人员的成员之前,在高端图形系统上工作了八年,并成为突破“加利福尼亚州”统一计算系统的工程董事融合服务器网络系统,专门处理虚拟接口卡,这是我们今天看到的DPU的前身。之后,Mukherjee在积云网络中花了近七年的软件工程副总裁,构建了创建其开源交换机软件的软件团队(现在是NVIDIA堆栈的一部分以及交换机ASIC,NIC和切换操作系统69亿美元收购Mellanox Technologies。)当NVIDIA购买积云时,Mukherjee在谷歌上做了两年的努力,在网络架构和平台上工作了 - 他不能像往常一样对他所做的事情更重要。

Sankar和Mukherjee相互了解,因为它是一个自然的高音扫描器和云建造者交换机,以了解开源网络操作系统供应商 - 基金队伍而不是其他方式。 Mukherjee和Kozyrakis在谷歌的Stints期间一起工作。他们组装的团队 - 确切的数字是一个秘密 - 是系统架构师和分布式系统工程师,它已经部署了“PlanetsCale软件”,Mukherjee将其纳入其中,包括来自亚马逊Web服务,Broadcom,思科系统,数字海洋,Facebook,谷歌的人员,英特尔和甲骨文。

“我们共同看到了分布式计算中发生的巨大转型,”Sankar告诉下一个平台。 “这被摩尔定律的减速是关键的,因为英特尔在设置服务器架构迭代步伐时失去了领导作用。它不再是滴答声循环,然后推动所有相应的硅和操作系统创新。这完全被高超划分器和云建设者破坏了。我们现在正在参与计算,存储和网络的异构实例。在哪里看到解决方案的多样性,云源处理器,其他ASIC,GPU,代码转换器,FPGA,分类闪存,可能分列的内存。我们在数据中心在数据中心级别发生的情况发生了什么,并且在数据中心级别的互连的需要现在将直接进入机架。“

很难争辩,我们没有。我们看到发生同样的事情,而I / O与计算和存储有关。以AI为例。

“AI筹码基本上将其加工能力提高了10倍至100倍,具体取决于您认为谁,”Kozyrakis说。 “与此同时,系统正在变得越来越大。如果您只看过高音客,则数据中心大小的大小增加了一个数量级。所以我们有这种大规模的计算能力。但我们需要在I / O连接基础架构中提供10x,100倍,100倍,100倍。否则,将使这种能力的好处是非常困难的。“

为了使其直言不讳地,如果不那么令人印象深刻,但超级分布但超级分布得更复杂得多,而且没有正确的I / O永远不会上班。凭借viperscaling,Sankar说,分布式系统是用父子查询架构构建的,映射到具有相同内存和存储和相同的网络接口的同质双套接字X86服务器节点上。硬件基本上是相同的,这使得这一切都很简单,驱动卷经济学。

“数据中心正在进行进入数据管道,”Sankar解释道。 “软件层中正在处理的多样性如何处理数据层是如何映射到基础结构层中,并且它在服务器架构中推动了不断的异构性,以使它们优化。我们坚信,今天勾勒出来的解决方案遭受了可扩展性和性能的问题,它们患上各种可兼容架构中的最佳品种。“

如果没有真正进入细节,Enfabrica表示它正在建立以更可扩展的方式粘合所有计算,存储和网络的硬件和软件。我们强烈怀疑Enfabrica将从快速网络和DPU借用一些想法,但这也不仅仅是在每个服务器中都有DPU并将它们绑在一起。亚马逊Web服务中的Pensando,Fungible,Nvidia和Annapurna Labs已经这样做。并坦率地说,这些公司会告诉您的是,许多智能NIC或DPU的许多想法都来自Mukherjee在UCS平台中的虚拟网络和存储接口上的工作。 Mukherjee在庞大的情况下,在某些超声波的方式突出了今天,顺便说一下。

没有进入细节,因为公司仍处于隐形模式,enfabrica认为它已经提出了更好的思想,以便大量分布式I / O.

“如果你看看所有这些公司,他们已经建造了一个产品,现在他们会试图说服人们使用它们,”穆克烈说。 “虽然我们组装了一支关于产品需要做什么的人团队以及如何将其实际适合它需要适应的计算,网络和存储物的格子。这种差异实际上改变了我们如何强调硬件以及软件的哪些软件,以及您需要投入努力以及您没有的地方。例如,制作一个非常说明的点:一个东西的表格有多大?硬件始终会受到限制,软件将永远希望一切都是无限的。你如何做出这些决定,你如何分区?它要求提供这些解决方案的人,因为他们了解人们愿意采取削减以及绝对线业绩的情况。“

我们意识到这一切都没有告诉你enfabrica正在做什么。但是,我们可以告诉您公司如何考虑数据中心的I / O和这些领域的市场尺寸和玩家,计划扰乱。看看我们组装的这个图表:

这就是Sankar称之为“100亿美元的I / O问题”,即Enfabrica正在尝试解决,并且大致是上面所示互连的所有硅的总可卡网。这将铺设出各种层的互连堆叠的所有缺点。

无论enfabrica在做什么,我们都非常怀疑它会破坏带有服务器内的每个层,在行程中,横跨行,并在数据中心的墙壁内。该公司仍处于隐形模式,并不是说,但我们希望在2021和2022年期间听到更多,因为它有效地拦截了一个不同的技术和缩放系统,这些系统正在归档2023及以后。

从我们直接从我们到收件箱的一周中的亮点,分析和故事。现在订阅