BlazingSQL使用GPU加速的SQL加速Summit超级计算机上的查询

2020-10-30 01:58:27

橡树岭领导力计算设施(OLCF)的计算科学家正在利用NVIDIA GPU计算能力和BlazingSQL(一种使用SQL语言进行GPU加速查询的新引擎)来大幅加快大数据分析,例如他们为新冠肺炎的药物发现工作所需的大数据分析。

OLCF已经与BlazingSQL,Inc.签订了合同。用于在OLCF峰会上部署、扩展和支持BlazingSQL平台。这将帮助需要在几秒到几分钟内查询海量数据的OLCF用户。与OLCF的合作将改善BlazingSQL在Summit上对Power9和GPU的支持,并使用UCF联盟的统一通信X(UCX)开源通信框架提供与NVIDIA Mellanox InfiniBand和下一代NVIDIA NVLink的更好集成。

美国国家计算科学中心(NCCS)的计算科学家延斯·格拉泽说:“当你有几个兆兆字节的数据时,使用CPU上的查询来分类信息可能需要几个小时,如果不是几天的话。”“理想情况下,我们不应该等那么久。我们需要找到一种解决方案,使科学家能够及时分析大量信息,并利用Summit的图形处理器。“。

该团队在过去一年中一直致力于在Summit上部署新的NVIDIA Rapids and Dask生态系统,并了解如何利用它来帮助OLCF用户处理应用程序。现在,他们的COVID模拟正是需要这样的解决方案。唯一缺少的是使用查询语言轻松访问、操作和排序他们正在使用的数据集的方法。

为了解决这一问题,该团队研究了金融和营销等商业应用程序如何处理大型结构化数据集的分析。他们发现,最近出现了一种新的解决方案,使他们能够利用Summit的强大功能和Rapids软件堆栈的速度:将BlazingSQL集成到Rapids/Dask生态系统中,提供一个GPU加速的开源平台来处理极快且可扩展的SQL查询以及其他数据分析。

“科学模拟和实验可能涉及庞大的数据集。处理如此海量的信息需要足够的软件来扩展分析方法,这样数据就可以有效地分布在Summit的多个节点上,让我们能够重复查询输出数据,例如当我们应用新的机器学习模型时,“生物科学部生物物理学家、新冠肺炎高性能计算研究的联合负责人Ada Sedova说。由于研究小组试图找到针对新型冠状病毒的治疗方法,这个问题也找到了解决方案。

随着今年SARS-CoV-2在世界各地肆虐,各地的科学家都在争先恐后地了解这种病毒,试图阻止它。

研究人员几乎立即求助于OLCF-位于橡树岭国家实验室(ORNL)的美国能源部(DOE)科学办公室用户设施,也是美国最快的超级计算机Summit的所在地-试图帮助找到该病毒的弱点和可能对疗法开发有用的信息。

模拟可能是这类研究的关键,但计算科学家必须经常将来自几个不同来源(如数据库)的大量信息与他们的模拟输出相结合,才能得出最终的解决方案。

这些信息源加在一起产生了堆积如山的数据,这意味着即使是寻找给定列的最高值这样的基本操作,也需要科学家对大量记录进行排序。

格拉泽解释说:“我们进行了这些大规模的模拟运行,使用Summit将分子对接到SARS-CoV-2病毒蛋白结构上,这产生了大量的数据,我们没有准备好查看、分类、处理和连接我们也需要的其他信息来源,如化学结构的数据,以完成分析。”

虽然计算部分速度很快,但他们需要几天到几周的时间才能使用基于CPU的数据库软件完成分析部分,因为每次大规模计算都会产生1.3TB的表格数据。

部分研究是在配备了高内存CPU和NVIDIAV100GPU节点以及32 GB HBM2的新Summit橱柜中进行的,这些节点是几个月前购买的,由美国能源部通过CARE法案为新冠肺炎相关研究提供补充联邦资金。

ORNL计算机科学和数学部高级研究员奥斯卡·埃尔南德斯表示:“新冠肺炎成为一个完美的案例研究,不仅是因为数据量大,还因为我们需要处理这些数据的紧迫性。”

这项技术还可以证明在其他领域特别有帮助,例如化学信息学、辐射物理,甚至监测Summit自己的能效和系统性能。

Hernandez说:“这些字段中的一些会生成大量数据,当这些数据可以实时导航时,这些数据会更加强大和有用。”

通过使用BlazingSQL,该团队能够展示出在TPCx-BB基准(零售商环境中的合成数据集)的基础上,拥有27个Summit新的高内存节点的最快商业解决方案相比于TPCx-BB基准提高了10倍。几乎同时和独立地,NVIDIA使用他们最新一代的NVIDIA A100张量核心图形处理器,在类似的基准测试中实现了近20倍的加速,这表明这项技术才刚刚开始打破纪录。

该团队已经在邀请其他人参加会议。他们在10月15日举办了一个仅限受邀参加的研讨会,以展示“一个虚拟化学信息学实验室,它使用Summit超级计算机使用GPU分析大量数据”,并结合了使用Jupyter笔记本运行数据科学和利用Summit的GPU计算平台和互连进行交互分析。OLCF的Slate资源使在浏览器中启动Jupyter笔记本并通过笔记本连接到Summit的能力成为可能。

OLCF AI Analytics Scalable Methods小组的计算机科学家Benjamín Hernández说:“Jupyter笔记本电脑和可扩展GPU加速的Python框架是OLCF的AI、ML和Data Analytics软件堆栈中的两个新产品,我们的用户过去曾热情地要求提供这两个产品。”

通过这次研讨会,我们有机会向在创新和新颖的计算对理论和实验的影响(INSTITE)、高级科学计算研究(ASCR)的领导计算挑战(ALCC)、亿级计算项目(ECP)和加速应用准备中心(CAAR)工作的团队介绍这些框架。我们希望在不久的将来能够在我们的用户群体中更广泛地推广这些产品。“。

组织者说:“与会者听到我们的供应商和OLCF在这次研讨会上展示了对GPU加速的Python数据生态系统的坚定承诺,感到非常兴奋。”

UT-Battelle LLC为美国能源部科学办公室管理橡树岭国家实验室,该实验室是美国物理科学基础研究的最大单一支持者。能源部的科学办公室正在努力解决我们这个时代一些最紧迫的挑战。有关更多信息,请访问https://energy.gov/science。