但可以说,软件是最重要的。为了实现核聚变,托卡马克的控制软件必须监测它所包含的等离子体的状态,并通过对系统的磁铁进行实时调整来应对任何变化。如果不这样做,可能会导致任何事情,从能量下降(导致任何核聚变的失败)到看到等离子体溢出容器(并烧毁容器的墙壁)。
要使控制软件正确,需要对控制磁铁和磁铁操纵的等离子体都有详细了解。或者更准确地说,让该控制软件正确需要。因为今天,谷歌的DeepMind人工智能团队宣布,其软件已被成功训练为控制托卡马克。
可能会不受控制
开发托卡马克的控制软件是一个复杂的过程。根据过去类似设计的经验,工程师们可以提取出软件运行所需的一些基本原则,如读取哪些传感器输入以及如何对它们的变化做出反应。但是,基于硬件的设计和正在使用的等离子体的能量,总是有一些怪癖。因此,往往会有一个测量和建模的迭代过程,然后对控制过程进行调整,同时保持足够的性能,以便在接近实时的情况下进行调整。
由此产生的控制软件往往是相当专业的。如果研究人员想对托卡马克中的等离子体进行非常不同的几何形状实验,可能需要对软件进行重大修改。
该领域的研究人员已经确定人工智能是一个可能的解决方案。给予合适的人工智能足够的例子,它就能找出哪些控制配置能在等离子体中产生所需的特性。这将使人们专注于他们想要的最终状态,然后只是让软件为他们生产,以便他们可以研究它。人工智能也应该更加灵活;一旦它接受了如何控制系统的训练,它应该能够产生非常不同的等离子体配置进行研究,而不需要重新编程。
为了推进这个想法,我们所需要的是人工智能专家和托卡马克。在这篇新论文中,人工智能团队来自谷歌的DeepMind部门,该部门因开发能够处理从蛋白质折叠到《星际争霸》等一切的软件而闻名。托卡马克是由洛桑EPFL的瑞士等离子体中心提供的。
AI训练的过程
由于在训练过程中把人工智能放在实际的硬件上可能是一场灾难,该团队开始使用一个专门针对瑞士等离子体中心硬件的托卡马克模拟器。这在很大程度上是准确的,而且他们在人工智能中编程限制,使其不会将等离子体引导到模拟器产生不准确结果的配置中。然后,DeepMind训练了一个深度强化学习程序,通过让它控制模拟器来达到各种等离子体的配置。
在训练过程中,一个中间层的软件提供了一个奖励函数,表明等离子体的属性有多接近所需的状态。另一个被称为 "判别器"的算法学习了对托卡马克控制磁铁的各种变化的预期奖励。这些被实际的控制神经网络用来学习它应该采取哪些行动。
判别器是精心设计的,计算成本很高,但它只在训练部分使用。当训练完成后,控制算法已经学会了采取哪些行动来达到各种状态,判别器可以被抛弃。
为了实现实时性能,训练后的控制器被捆绑为一个可执行文件。标准控制软件将被用来激活托卡马克,并将等离子体带到高能状态。一旦等离子体稳定下来,它就把控制权交给人工智能。
事实证明它成功了
由此产生的软件在实际硬件上的表现正如期望的那样,该软件可以控制针对不同时间条件的实验运行,在一个测试案例中,它提升能量,保持等离子体稳定,然后改变等离子体的几何形状,然后在能量回升之前将等离子体移到托卡马克内。在另一个案例中,它在同一个托卡马克中同时保持两个独立的等离子体结构。
描述这项工作的论文有一个很大的清单,列出了作者需要的东西。该清单包括一个托卡马克模拟器,它既要足够详细准确,又要足够紧凑,能够快速提供反馈,使强化学习成为可能。训练集必须包括类似于将控制权交给它的常见条件,以及让它学习如何将这些条件过渡到实验配置的不寻常条件。此外,研究人员需要开发出足够详细的软件,以评估巨大范围的潜在控制选项,但也能够训练出一个快速性能的控制器,并将其编译成可执行文件。
这项工作背后的人也对它可能预示的未来工作感到兴奋。他们建议,不是简单地限制对现有硬件的建模,而是应该能够给这个软件的迭代提供一个所需的等离子体配置,并让它确定允许它创建该配置的硬件几何形状。另外,它还可以优化现有硬件的性能。