在2020年英特尔架构日上,大部分焦点和热议都围绕着即将推出的老虎湖10纳米笔记本电脑CPU-但英特尔也宣布了Xe GPU技术、战略和规划方面的进步,这可能会在未来几年撼动整个行业。
集成Xe显卡很可能是老虎湖笔记本电脑CPU的最佳功能之一。虽然我们还没有正式批准测试结果,更不用说第三方的测试了,但一些泄露的基准测试显示,Tiger Lake的集成显卡在Ryzen 4000 Mobile上以相当大的优势击败了Vega11芯片组,优势相当大。
假设这些泄露的基准在现实世界中发挥作用,它们将是英特尔在笔记本电脑领域日益衰落的声誉亟需的一剂强心针。但对Xe来说,还有更多的东西。
已经很长时间没有第三方真正挑战高端显卡的两方锁定了-大约20年来,您唯一现实的高性能GPU选择一直是NVIDIA或RADEON芯片组。我们第一次听说英特尔计划在2019年改变这一点--但当时,英特尔实际上只是在谈论它即将在Ponte Vecchio推出的Xe GPU架构,这是一款针对HPC超级计算和数据中心应用的产品。
当时,英特尔还没有准备好谈论XE架构,但我们在英特尔的“2019年超级计算”幻灯片中发现了一张幻灯片,其中提到了将XE架构扩展到工作站、游戏和笔记本电脑产品线的计划。我们还没有看到英特尔的台式机游戏卡,但Xe已经取代了旧的超高清系列和功能更强大的Iris+产品,而且与去年相比,英特尔现在更愿意谈论近期的扩张。
当我们询问英特尔高管有关2019年游戏幻灯片的问题时,他们似乎对此相当含糊其辞。当我们在2020年建筑日上再次询问时,害羞消失了。英特尔目前还没有台式机游戏卡(XE HPG)的发布日期,但其高管表示有信心很快在这一领域实现市场领先的性能,包括板载硬件光线跟踪(RayTracing)。
如果你跟随我们早先对老虎湖建筑的报道,画廊里的第一张图应该看起来非常熟悉。Xe LP图形处理器从英特尔重新设计的FinFET晶体管和SuperMIM电容中获得了与Tiger Lake CPU相同的好处。具体地说,与第11代(冰湖虹膜+)GPU相比,这意味着更大范围的电压稳定性和更高的频率提升。
凭借更大的电压动态范围,Xe LP可以在比Iris+低得多的功率下工作,并且它还可以扩展到更高的频率。频率提升的增加意味着在相同电压下IRIS+也可以管理更高的频率。很难夸大这条曲线的重要性,它不仅会影响某些工作负载的能效和性能,还会影响所有工作负载的性能。
然而,改善并不会随着电压和频率的提高而结束。高端Xe LP拥有96个执行单元(与Iris+G7+G7的64个相比),每个执行单元的FP/INT算术逻辑单元的宽度是Iris+G7+G7的两倍。为每个16个EU子片添加一个新的L1数据高速缓存,并将L3高速缓存从3MiB增加到16MiB,您就可以开始了解Xe LP的真正改进有多大。
Xe LP的96-EU版本每个时钟周期的额定32位浮点运算(FLOP)比Iris+G7多50%,并且启动时运行的频率更高。这非常符合我们之前提到的泄露的Time Spy GPU基准-i7-1165G7的Time Spy GPU得分为1,482,而i7-1065G7的806(以及Ryzen 7 4700U&1,093)的得分为1,482。
GPU市场成功的最大商业关键之一是通过吸引多个市场来降低成本和增加收入。英特尔Xe广受欢迎并降低制造和设计成本的战略的第一部分是可扩展性--他们不打算对笔记本电脑部件、台式机部件和数据中心部件进行完全独立的设计,而是打算让Xe相对简单地进行扩展,即随着SKU向高端市场转移,通过添加更多具有更多EU的子片来实现扩展。
英特尔要真正大举打入市场,还有另一个关键的差异化因素。AMD的Radeon系列产品受到这样一个事实的困扰,即无论它们对游戏玩家有多大的吸引力,它们都会让人工智能从业者感到冷淡。这并不一定是因为Radeon GPU不能用于人工智能计算-问题更简单;整个生态系统中都是专门为NVIDIA的CUDA架构设计的库和模型,没有其他的。
竞争的深度学习GPU架构(需要重写大量代码)似乎不太可能成功,除非它提供比稍微便宜或稍微强大的硬件更诱人的东西。英特尔的答案是提供一次编写、随时随地运行的环境-具体地说,就是OneAPI框架,该框架预计将于今年晚些时候进入生产发布状态。
许多人预计,所有严肃的人工智能/深度学习工作都将在GPU上运行,GPU的吞吐量通常比CPU高得多-即使是配备英特尔AVX-512&34;深度学习Boost指令集的CPU-也可能做到这一点。在数据中心,订购任何您喜欢的配置都很容易,几乎不受空间、电力或加热方面的限制,这一点至少接近真实。
但是,当涉及到推理工作量时,GPU执行并不总是最好的答案。虽然GPU的大规模并行体系结构可能提供比CPU更高的吞吐量,但设置和拆卸短工作负载所涉及的延迟通常会使CPU成为可接受的-甚至更好的-替代方案。
越来越多的推理根本不是在数据中心进行的-它是在边缘进行的,那里的电力、空间、热量和成本限制经常会将GPU赶出运行。这里的问题是,您不能轻易地将为NVIDIA CUDA编写的代码移植到x86 CPU上-因此,开发人员需要在规划和支持哪些体系结构方面做出艰难的选择,而这些选择会影响代码的可维护性以及以后的性能。
虽然英特尔的OneAPI框架是真正开放的,并且英特尔邀请硬件开发人员为非英特尔部件编写自己的库,但XE显卡显然是一等公民-英特尔CPU也是如此。一次编写并维护一次的深度学习库在专用GPU、集成GPU和x86 CPU上运行的诱惑力可能足以吸引AI开发人员对Xe图形的浓厚兴趣,而在Xe图形中,单纯的性能竞争是行不通的。
一如既往,当供应商对未发布的硬件进行声明时,保持一些健康的怀疑态度是个好主意。话虽如此,我们已经从英特尔看到了足够多的细节,让我们坐起来关注GPU方面的问题,特别是(从战略上?)。到目前为止,泄露了Xe LP基准来支持他们的说法。
我们认为,这里最需要关注的是英特尔的整体战略--英特尔高管几年来一直在告诉我们,该公司不再是一家CPU公司,而且它在软件和硬件上的投资同样巨大。在这样一个世界里,购买更多的硬件比雇佣(和管理)更多的开发人员更容易,这给我们的印象是一种精明的策略。
长期以来,高质量的驱动程序一直是英特尔集成显卡的标志-尽管这款游戏在超高清显卡上可能并不是一流的,但用户体验压倒性地一直是如此,所有平台都对其抱有良好的期望。如果英特尔成功地将这一点扩展到深度学习开发,我们认为,通过OneAPI,英特尔将真正有机会打破NVIDIA目前对深度学习GPU市场的垄断。
与此同时,我们非常期待看到Xe LP图形在现实世界中的首次亮相,届时虎湖将于9月份推出。