通过深度强化学习实现托卡马克等离子体的磁控制

2022-02-17 14:10:10

使用磁约束的核聚变,特别是在托卡马克配置中,是实现可持续能源的一条有希望的途径。一个核心挑战是在托卡马克容器内形成并维持高温等离子体。这就需要使用磁性执行器线圈进行高维、高频、闭环控制,由于各种等离子体配置的不同要求,这一点更加复杂。在这项工作中,我们介绍了一种以前未描述的托卡马克磁控制器设计体系结构,该体系结构可以自主学习控制全套控制线圈。该体系结构在满足物理和操作约束的同时,满足了高级别规定的控制目标。这种方法在问题规范中具有前所未有的灵活性和通用性,并显著减少了生产新等离子体配置的设计工作量。我们成功地在托卡马克配置变量1、2上生产和控制了一系列不同的等离子体配置,包括细长的常规形状,以及高级配置,如负三角形和“雪花”配置。我们的方法实现了对这些配置的位置、电流和形状的精确跟踪。我们还展示了TCV上的持续“液滴”,其中两个单独的等离子体同时维持在血管内。这代表了托卡马克反馈控制的一个显著进步,显示了强化学习加速聚变领域研究的潜力,是强化学习应用到的最具挑战性的现实系统之一。

托卡马克是用于核聚变研究的环形装置,是产生可持续电力的主要候选装置。一个主要的研究方向是研究将等离子体分布塑造成不同配置3、4、5的效果,以优化稳定性、限制和能量消耗,特别是为第一次燃烧等离子体实验ITER提供信息。将每个配置限制在托卡马克内需要设计一个反馈控制器,该控制器可以通过精确控制几个磁耦合到等离子体的线圈来操纵磁场6,以实现所需的等离子体电流、位置和形状,这个问题称为托卡马克磁控问题。

这种时变、非线性、多变量控制问题的传统方法是首先解决一个反问题,以预计算一组前馈线圈电流和电压7、8。然后,设计了一套独立的单输入单输出PID控制器,以稳定等离子体垂直位置,控制径向位置和等离子体电流,所有这些都必须设计为不相互干扰6。大多数控制体系结构通过等离子体形状的外部控制回路进一步增强,该回路涉及实现等离子体平衡9、10的实时估计,以调制前馈线圈电流8。控制器的设计基于线性化模型动力学,需要增益调度来跟踪时变控制目标。尽管这些控制器通常是有效的,但每当目标等离子体配置发生变化时,它们都需要大量的工程工作、设计工作和专业知识,以及复杂的实时平衡估算计算。

通过使用强化学习(RL)生成非线性反馈控制器,一种全新的控制器设计方法成为可能。RL方法已经成功地应用于其他领域11、12、13中的几个具有挑战性的应用中,能够直观地设定性能目标,将重点转移到应该实现什么,而不是如何实现。此外,RL大大简化了控制系统。一个计算成本低廉的控制器取代了嵌套的控制结构,内部化的状态重构消除了独立平衡重构的要求。这些综合优势缩短了控制器的开发周期,加快了替代等离子体配置的研究。事实上,人工智能最近被确定为聚变控制14的“优先研究机会”,其基础是在重建等离子体形状参数15、16、使用替代模型17、18加速模拟以及检测即将发生的等离子体破坏19方面已证明的成功。然而,RL还没有被用于磁控制器的设计,由于高维测量和驱动、长时间视界、快速不稳定增长率以及需要通过间接测量推断等离子体形状,这是一个挑战。

在这项工作中,我们提出了一个RL设计的磁控制器,并在托卡马克上对其性能进行了实验验证。控制策略通过与托卡马克模拟器的交互学习,并被证明能够直接在硬件上进行托卡马克磁控制,成功地将“sim-to-real”间隙桥接起来。这使得从预先设计状态的工程驱动控制到操作员指定目标的人工智能驱动优化的根本转变成为可能。我们在托卡马克组态变量(TCV)1、2上进行的实验中展示了我们控制器的有效性,在实验中,我们展示了对各种等离子体形状的控制,包括ITER中预见的细长形状,以及先进配置,比如负三角形和“雪花”等离子体。此外,我们还展示了一种持续配置,其中两个单独的等离子体“液滴”同时保持在容器内。托卡马克磁控是激光应用于的最复杂的实际系统之一。这是等离子体控制器设计的一个有希望的新方向,有可能加速聚变科学,探索新的配置,并有助于未来托卡马克的发展。

我们的结构如图1所示,是设计托卡马克磁约束控制器的灵活方法。该方法有三个主要阶段。首先,设计师指定实验目标,可能伴随着时变控制目标。其次,深度RL算法与托卡马克模拟器相互作用,找到一个接近最优的控制策略,以满足指定的目标。第三,以神经网络表示的控制策略直接在托卡马克硬件上实时运行(“零炮”)。

a、 描述学习循环。控制器根据当前等离子体状态和控制目标发送电压命令。这些数据被发送到重播缓冲区,该缓冲区向学习者提供数据以更新策略。b、 我们的环境交互回路,包括电源模型、传感模型、环境物理参数变化和奖励计算。c、 我们的控制策略是一个具有三个隐藏层的MLP,用于测量和控制目标,并输出电压命令。d–f,TCV和实时部署控制系统的交互,使用由多个子组件组成的常规控制器(f)或我们使用单个深度神经网络直接控制所有19个线圈(e)的架构实现。g、 TCV和19个驱动线圈的描述。船的高度是1.5 米高,小半径0.88 m,容器半宽0.26 m、 j,血管和血浆的横截面,标记了重要方面。

在第一阶段,实验目标由一组目标指定,这些目标可以包含各种各样的期望属性(扩展数据表4)。这些特性包括位置和等离子体电流的基本稳定,以及多个时变目标的复杂组合,包括具有指定延伸率、三角形和X点位置的精确形状轮廓。然后将这些目标组合成一个“奖励函数”,为每个时间步的状态分配一个标量质量度量。如下文所述,此功能还将惩罚达到不需要的终端状态的控制策略。最关键的是,一个精心设计的奖励函数将被最小限度地指定,使学习算法具有最大的灵活性,以达到预期的结果。

在第二阶段,高性能RL算法收集数据,并通过与环境的交互找到控制策略,如图1a、b所示。我们使用的模拟器具有足够的物理保真度来描述等离子体形状和电流的演变,同时保持足够低的学习计算成本。具体来说,我们使用自由边界等离子体演化模型20来模拟极向场线圈电压影响下等离子体状态演化的动力学。在该模型中,线圈和无源导体中的电流在电源的外部施加电压以及其他导体和等离子体本身中时变电流产生的感应电压的影响下演化。反过来,等离子体由Grad–Shafranov方程21建模,该方程是洛伦兹力和等离子体内部压力梯度在感兴趣的时间尺度上的平衡结果。用集总电路方程模拟了等离子体总电流Ip的演化。这组方程由FGE软件包22进行数值求解。

RL算法使用收集到的模拟机数据来寻找关于指定奖励函数的近似最优策略。由于演化等离子体状态的计算要求,我们的模拟器的数据速率明显低于典型的RL环境。我们通过使用最大后验概率策略优化(MPO)23(一种演员-评论家算法)来优化策略,从而克服了数据不足的问题。MPO支持跨分布式并行流进行数据收集,并以数据高效的方式进行学习。此外,我们还利用MPO演员-评论家设计固有的不对称性来克服磁控制的限制。在actor-critic算法中,“critic”使用可用数据学习各种操作的折扣预期未来回报,“actor”使用critic的预测来设置控制策略。参与者控制策略的表示受到限制,因为它必须在TCV上运行,并有实时保证,而批评者则不受限制,因为它只在培训期间使用。因此,我们在actor中使用了一个快速的四层前馈神经网络(图1c),在critic中使用了一个更大的递归神经网络。这种不对称性使批评家能够从测量中推断出潜在的状态,处理不同时间尺度上的复杂状态转换动力学,并评估系统测量和动作延迟的影响。然后将来自耦合动力学的信息提取到具有实时能力的控制器中。

在第三阶段,控制策略与相关的实验控制目标绑定到一个可执行文件中,使用一个针对10秒实时控制的编译器 最大限度地减少依赖性并消除不必要的计算。该可执行文件由TCV控制框架24加载(图1d)。每个实验都从标准的等离子体形成程序开始,在该程序中,传统的控制器保持等离子体的位置和总电流。在一个被称为“移交”的预定时间,控制切换到我们的控制策略,然后启动19个TCV控制线圈,将等离子体形状和电流转换为所需的目标。训练后,在不进一步调整控制策略网络权重的情况下执行实验,换句话说,存在从仿真到硬件的“零炮”转移。

控制策略通过学习过程的几个关键属性可靠地转移到TCV上,如图1b所示。我们确定了一个执行器和传感器模型,该模型结合了影响控制稳定性的特性,例如延迟、测量噪声和控制电压偏移。通过对实验数据的分析,我们在训练过程中针对等离子体压力、电流密度分布和等离子体电阻率在适当范围内应用了有针对性的参数变化,以解释变化的、不受控制的实验条件。这在确保性能的同时提供了健壮性。虽然模拟器通常是准确的,但已知的一些区域的动力学表现较差。我们将“学习区域回避”构建到训练循环中,通过使用奖励和终止条件(扩展数据表5)来避免这些机制,当遇到特定条件时,这些条件会停止模拟。终止条件也用于执行操作限制。控制策略学习保持在规定的限制范围内,例如,最大线圈电流或边缘安全系数25。

与传统设计相比,我们的体系结构设计的控制器在结构上大大简化,如图1e、f所示。RL驱动的设计创建了一个网络控制器,而不是一系列控制器。

我们在TCV的实际实验中展示了我们的体系结构对控制目标的能力。我们首先展示了对等离子体平衡基本性质的精确控制。然后,我们用复杂的、时变的目标和物理相关的等离子体配置来控制广泛的平衡。最后,我们展示了对容器中同时存在多个等离子体“液滴”的配置的控制。

我们首先通过一系列代表全等离子体放电所需变化的变化来测试等离子体控制的基本任务。首先,从0.0872的移交开始 s、 接管并稳定IP−110 灵魂。接下来,将等离子体电流增加到−150 然后将等离子体从1.24拉长到1.44,从而将垂直不稳定性增长率增加到150 赫兹。接下来,通过将垂直等离子体位置移动10来演示位置控制 cm,然后通过控制活动X点位置使等离子体转向(见图1h)。最后,将plasma恢复到移交状态,并将IP降到−70 kA需要安全关机。虽然精度要求通常取决于精确的实验,但合理的目标是将I p控制在5%以内 kA(最终150 kA目标的3%),形状在2以内 厘米(血管径向半宽度的8%为26 厘米)。请注意,使用的平衡重建匹配视觉重建边界,其典型精度为26:1 厘米

控制策略的性能如图2所示。所有任务均已成功执行,跟踪精度低于预期阈值。在最初的限制阶段(0.1 s到0.45 s) ,均方根误差(RMSE)为0.71 kA(目标的0.59%),形状RMSE为0.78 厘米(容器半宽的3%)。在转向阶段(0.55 s到0.8 s) I p和形状RMSE为0.28 kA和0.53 cm(分别为0.2%和2.1%),在整个窗口内产生RMSE(0.1%) s到1.0 s) 0.62 kA和0.75 厘米(0.47%和2.9%)。这表明我们的RL体系结构能够在放电实验的所有相关阶段进行精确的等离子体控制。

演示等离子体电流、垂直稳定性、位置和形状控制。顶部,目标形状点有2个 cm半径(蓝色圆圈),与实验后平衡重建(等高线图中的黑色连续线)进行比较。左下角,目标时间记录道(蓝色记录道)与重建观测(橙色记录道)进行比较,并标记转移等离子体窗口(绿色矩形)。右下角,容器内0.6的图片 它用腿展示了转移的等离子体。

接下来,我们将展示我们的体系结构为科学研究生成复杂配置的能力。每个演示都有自己的时变目标,但在其他情况下,使用相同的体系结构设置生成控制策略,包括培训和环境配置,只需对奖励功能进行轻微调整(如扩展数据表3所示)。回想一下,在每个实验中,等离子体在切换前具有较低的延伸率,并且控制策略主动将等离子体调节到感兴趣的配置。从这些实验中选择的时间片如图3所示,扩展数据图1和扩展数据表1中的误差度量中有进一步的细节。

TCV实验期间获得的对照演示。目标形状点为2 厘米半径(蓝色圆圈),与平衡重建等离子体边界(黑色连续线)相比。在所有图中,第一个时间片段显示了切换条件。a、 延伸率为1.9,垂直不稳定增长率为1.4 千赫。b、 在中性束加热(NBH)进入H模式的情况下,近似ITER提出的形状。c、 图的负三角度−0.8. d、 雪花配置,对底部X点进行时变控制,目标X点用蓝色标记。这些放炮的扩展轨迹可以在扩展数据图2中找到。

拉长等离子体改善了它们的热约束特性,但它们增加的垂直不稳定性增长率使控制变得复杂。我们的目标是1.9的高延伸率和可观的增长率。控制器能够产生并稳定这种伸长,如图3a所示。我们获得了目标延伸率和期望延伸率之间的良好匹配,RMSE为0.018。我们还将形状和等离子体电流控制在其目标值,IPRMSE为1.2 kA和形状RMSE为1.6 厘米这表明有能力稳定超过1.4%的高垂直不稳定性增长率 kHz,尽管只在10 千赫。

接下来,我们测试了通过中性束注入应用辅助加热以进入“H模式”,这对于具有更高能量限制时间是可取的,但会导致等离子体特性发生显著变化。我们得到了一个基于提议的使用这种辅助加热的ITER配置的时变轨迹。当标准化压力βp增加到1.12时,如图3b所示,等离子体位置和电流保持准确,I p RMSE为2.6 kA和形状RMSE为1.4 厘米这表明我们的控制器能够鲁棒地适应不断变化的等离子体状态,并且能够在外部指定的配置下与加热的H型等离子体一起工作。

负三角形等离子体很有吸引力,因为它们具有良好的约束特性,没有典型H模的强边缘压力梯度。我们的目标是一个具有三角形−0.8,两个角都有X点。我们成功地实现了这种配置,如图3c所示。三角形精确匹配,RMSE为0.070,等离子体电流和形状也精确匹配,RMSE值为3.5 kA和1.3 分别为厘米。这证明了在主动研究27下快速直接创建配置的能力。

研究了雪花结构28、29,因为它们将粒子排气分布在几个撞击点上。一个关键参数是形成偏滤器支腿的两个X点之间的距离。我们展示了我们控制这一距离的能力,如图3d所示。控制策略首先建立了一个雪花配置,X点之间用34隔开 厘米然后操纵远X点接近极限X点,以6.6的间隔结束 厘米使用3.7的组合RMSE跟踪时变X点目标 厘米在这个转变过程中,等离子体电流和形状保持在高精度,RMSE值为0.50 kA和0.65 分别为厘米。这表明了对具有多个耦合目标的复杂时变目标的精确控制。

总的来说,这些实验证明

......