中观计算和中观数据:被遗忘的中间人

2020-08-29 00:37:39

我多年来一直在英国的大学担任研究软件工程师(RSE),从事各种研究领域(粒子物理、合成生物学、心脏病学等)。我既是计算服务的使用者,又是计算服务的提供者。我经常看到的一件事是想要追赶最新时尚的倾向。现在,在学术界,最新的时尚往往落后于最先进的水平长达十年,所以,举个例子,我们只是在最近几年才看到深度学习出现在每一份拨款申请中。我在每一份拨款申请中做的一件事就是。我们实际上是在要求并确保,如果研究人员谈论的是做大数据,因为他们有兆兆字节的数据,他们不会被了解他们情况的拨款审查员打扰。

朝这个方向推进是完全可以理解的。拨款申请业务竞争非常激烈,你在提案中提出的任何能吸引评论者眼球的东西都会对你有利。

在谈到数据时,这一点尤为明显。研究资金投入到最有价值的问题上,有一种假设是问题越难,就越有价值。此外,还有一种假设,即一个人拥有的数据越多,研究问题就越大、越难。这自然会产生这样一种想法,即如果你的问题是大数据问题,那么它更有可能获得资金。因此,你会看到拨款申请试图说服审查者,这是一个很大的问题,也就是说,如果你的问题是大数据问题,那么它就更有可能获得资金。因此,你会看到拨款申请试图说服审查者相信,如果你的问题是大数据问题,那么它更有可能获得资金。因此,你会看到拨款申请试图说服评审者相信。实际上,他们正在处理的线性或空间数据集可能只有几GB到一TB。这当然是大量的数据,但它往往缺乏人们真正认为的大数据解决方案所需的复杂性。

现在,我不是试图淡化这些研究领域,而是试图争辩说,这里正在解决的问题同样值得研究,即使不用大数据来表述它。我在大学里看到的大多数研究问题都不是大数据,它们都是有趣的问题。我认为,降低大数据的吸引力,让人们知道不属于这一类别是健康的。部分问题是,这种规模的数据问题没有合适的名称:在单一笔记本电脑或台式机上实际做不到的数据问题,但远低于需要大数据机器或Hadoop集群的大小或复杂性。

当我试图教授如何处理这种规模的问题时,我曾玩弄过许多名字:大数据、大数据、中等数据。到目前为止,还没有人能抓住我的注意力,所以我决定创造一个新的术语,中观数据。这里的“中间”指的是“中间”或“中间”。美索不达米亚(河流之间)。

除了数据领域的问题(主要来自于对流行语的追逐),计算能力领域也存在类似的问题。大多数研究都遵循一个共同的路径,即从研究人员的笔记本电脑上进行一次小调查开始,直到他们有太多的模拟运行,或者他们花费的时间比工作日更长,所以无法及时完成。在这一点上,大多数研究机构都会鼓励使用他们拥有的任何中央计算资源,通常是一个大型HPC集群。

像大学这样的研究机构面临着一种压力,他们试图通过颂扬他们正在解决的所有重大问题来证明他们在计算资源上的支出是合理的:他们正在推动多少纳秒的分子动力学,或者他们可以模拟多么细粒度的气象网格。这鼓励了系统的创建,以迎合大学里那些能够真正很好地利用超级计算机的少数群体-那些能够运行大型多节点MPI作业的人,他们的特定硬件的优化代码,以及他们的团队中有专家。这鼓励了系统的创建,以迎合大学里能够真正很好地利用超级计算机的少数几个群体-那些能够运行大型多节点MPI作业的人,他们的特定硬件的优化代码,以及他们的团队中有专家。

这样做的问题是,它进一步扩大了在笔记本电脑上运行和使用中央设备之间的能力和复杂性的鸿沟。与中间数据类似,有大量的研究人员--我认为大多数研究人员--他们的需求正好处于中间位置。他们不是在做超级计算,而是在做中观计算。

这些研究人员最好使用特定于领域的小型批处理集群、云计算(可能使用云中的集群)、软件即服务或RSE提供的一些实际帮助来使他们的代码在笔记本电脑上更高效地运行。

也许Pandas已经足够了,或者他们需要使用Dask.也许是一门关于并发的课程.未来神奇地使他们的代码在四分之一的时间内完成是正确的解决方案.不管怎样,解决方案可能不是用Fortran重写代码,而是使用MPI扩展到64个节点或租用Hadoop集群.。

阅读这篇文章的人会认为我说的是显而易见的事情,他们认为我在这个领域工作多年了,有什么新东西?这就是问题的关键,很多研究人员坐在这里,但事实是,他们没有得到充分的服务。大多数人没有得到足够的服务,这就是我想说的,我在这个领域工作多年了,有什么新鲜事?这是一种观点,很多研究人员坐在这里,但事实是,他们没有得到充分的服务。他们都是计算机专家,并且会使用任何可用的、向他们宣传的、易于使用的工具。这不可避免地意味着他们会通过电子邮件相互发送Excel电子表格,其中可能包含一些带有硬编码路径的R或Python脚本。这些研究人员被困在专家初学者的角色中。对他们的入门级工具非常了解的人,学习如何正确使用它们或使用更好的工具来完成工作的短期障碍比看起来更高。

他们想要扩大他们的研究,但当他们环顾四周,看看大学能提供什么时,他们会被告知如何访问超级计算机,或者如果他们将数据放入Elasticsearch数据库,情况会更好。这种跳跃太大了,我们需要解决一个社会问题,即允许他们在中观数据鸿沟上只采取他们需要的步骤。我们在扩展过程的每个阶段都需要解释良好、易于使用的工具,而不仅仅是最高端。

这些术语,中观计算和中观数据,都是刻意谦逊的。它们显然不是要试图成为最大的,而是要深思熟虑地考虑手头的问题并选择合适的锤子。与大数据不同,人们不应该问这样一个问题&这是一个中观数据问题吗?因为如果他们问这个问题,答案是肯定的。我希望人们在拨款申请中放心地说。由于这是一个中观数据挑战,我们要求为解决这一挑战所需的技能和资源提供资金,并要求获得全职RSE,而不必假装他们正在研究大数据或需要一台专用的超级计算机。标签很有帮助,我认为这些标签非常适用于研究界的大部分人。

中观数据有自己的一套工具和解决方案,这在一定程度上与大数据截然不同。我并没有发明一个全新的努力领域,许多人在这里研究解决方案已经有几十年了,但它肯定不是一个能像应有的那样吸引兴奋或研究资金的领域。

这些仍然是棘手的问题,以我的经验来看,它们正在解决现实世界的挑战,或者加深我们对宇宙的理解。中间计算和中间数据项目仍然需要来自RSE或数据科学家的专业知识,以确保研究仍然是可靠的、可重复的、经过测试的和可理解的。