在全世界等待建造迄今为止最大的聚变反应堆ITER之际,设计类似的小型反应堆仍在运行。这些被称为托卡马克的反应堆帮助我们测试硬件和软件。硬件测试帮助我们改进容器壁材料或控制磁铁的形状和位置。
但可以说,软件是最重要的。为了实现聚变,托卡马克的控制软件必须监控其所含等离子体的状态,并通过对系统进行实时调整来响应任何变化;这是磁铁。如果不这样做,可能会导致能量下降(这会导致任何聚变的失败)或看到等离子体溢出安全壳(并烧焦容器壁)。
正确使用控制软件需要详细了解控制磁铁和磁铁操纵的等离子体。或者更准确地说,正确使用控制软件是必要的。因为今天,谷歌';美国DeepMind人工智能团队宣布,其软件已经成功地接受了控制托卡马克的培训。
托卡马克控制软件的开发是一个复杂的过程。根据以往类似设计的经验,工程师可以提取软件运行所需的一些基本原则,比如读取哪些传感器输入以及如何响应其中的变化。但基于硬件的设计和所用等离子体的能量,总有一些怪癖。因此,通常会有一个测量和建模的迭代过程,然后对控制过程进行调整,同时保持性能足以近实时地进行调整。
由此产生的控制软件往往相当专业化。如果研究人员想在托卡马克中用一种截然不同的等离子体几何结构进行实验,可能需要对软件进行重大修改。
该领域的研究人员已经确定人工智能是一种可能的解决方案。给正确的人工智能足够的例子,它就能找出哪些控制配置在等离子体中产生所需的特性。这将使人们能够专注于他们想要的最终状态,然后让软件为他们生成它,以便他们可以研究它。人工智能也应该更加灵活;一旦它接受了如何控制系统的培训,它应该能够生产出非常不同的等离子体配置,以供研究,而无需重新编程。
为了推进这个想法,我们只需要人工智能专家和托卡马克。在这篇新论文中,人工智能团队来自谷歌';该公司的DeepMind部门以开发能够处理从蛋白质折叠到星际争霸等一切的软件而闻名。托卡马克由位于洛桑EPFL的瑞士等离子体中心提供。
由于在训练过程中,在实际硬件上放松人工智能可能是一场灾难,该团队从一个专门用于瑞士等离子体中心硬件的托卡马克模拟器开始。这在很大程度上是准确的,他们将限制编程到人工智能中,防止它将等离子体引导到模拟器产生不准确结果的配置中。然后,DeepMind培训了一个深度强化学习程序,让它控制模拟器,从而达到各种等离子体配置。
在训练过程中,软件的中间层提供了一个奖励功能,指示血浆的接近程度';的属性已恢复到所需状态。另一种算法称为a";评论家";了解了托卡马克各种变化的预期回报';让我们来控制磁铁。这些被实际控制神经网络用来学习它应该采取的行动。
批评家是精心设计的,计算成本很高,但它只在培训部分使用。当训练完成后,控制算法已经学会了采取哪些行动来达到各种状态,而批评者可能会被丢弃。
为了实现实时性能,训练有素的控制器被捆绑为可执行文件。标准控制软件将用于激活托卡马克装置,并使等离子体达到高能。一旦血浆稳定,它就会将控制权交给人工智能。
当在实际的硬件上运行时,生成的软件的性能几乎与您希望的一样。该软件可以在一个测试案例中控制针对不同条件的实验运行,它增加能量,保持等离子体稳定,然后改变等离子体#39;然后将等离子体重新安置在托卡马克内,然后将能量降低。在另一个实验中,它在同一托卡马克中同时拥有两个独立的等离子体结构。
描述这项工作的论文列出了作者需要的大量东西。该清单包括一个托卡马克模拟器,它既足够详细,足够精确,又足够紧凑,可以快速提供反馈,使强化学习成为可能。训练集必须包括两种常见条件,一种是类似于将控制权交给它的情况,另一种是让它学会如何将这些条件转换为实验配置的不寻常条件。此外,研究人员需要开发足够详细的软件,以评估大量潜在的控制选项,同时还需要能够训练一个可编译成可执行文件的快速执行控制器。
这项工作背后的人也对未来工作的前景感到兴奋。他们建议,与其简单地将事情局限于对现有硬件进行建模,还不如为该软件的迭代提供所需的等离子配置,并让其确定允许其创建该配置的硬件几何结构。或者,它可以优化现有硬件的性能。
现在我们只需要等待一个与AI相当的聚变反应堆';请注意。