虽然工程、金融和商业从新算法中获得了巨大的利润,但它们并不是唯一的。几十年来,大规模计算一直是物理科学工具箱中不可或缺的一部分,人工智能的一些最新进展已经开始改变科学发现的方式。
人们对物理科学中的突出成就感到非常兴奋,比如使用机器学习来绘制黑洞的图像,或者AlphaFold对蛋白质折叠的贡献。本文将介绍人工智能在化学中的一些更突出的用途,化学是上述蛋白质折叠问题的父学科。
化学的主要目标之一是了解物质、它的性质以及它可以经历的转变。当我们寻找一种新的超导体、疫苗或任何其他具有我们想要的性质的材料时,化学就是我们所求助的。
传统上,我们认为化学是在实验室里用试管、烧瓶和气体燃烧器进行的。但它也受益于计算和量子力学的发展,这两个领域在20世纪初和中期都变得非常突出。早期的应用包括使用计算机帮助解决基于物理的计算;通过将理论化学与计算机编程相结合,我们能够模拟(尽管还远远不够完美)化学系统。最终,这项工作发展成为一个现在被称为计算化学的分支领域。该领域在20世纪70年代开始获得发展势头,并在1998年和2013年的诺贝尔奖中获奖。尽管如此,尽管计算化学在过去几十年中得到了越来越多的认可,但它的重要性在很大程度上被实验室实验的重要性所掩盖——实验室实验是化学发现的基石。
然而,随着当前人工智能、以数据为中心的技术的进步,以及数据量的不断增长,我们可能会看到一种变化,即计算方法不仅用于辅助实验室实验,而且用于指导实验。
那么人工智能是如何实现这种转变的呢?一个特别的发展是将机器学习应用于材料发现和分子设计——这是化学中的两个核心问题。
在传统方法中,分子设计大致分为四个阶段,如下图所示。需要注意的是,每个阶段可能需要数年时间和大量资源,但无法保证成功。
发现阶段依赖于几个世纪以来发展起来的指导分子设计的理论框架。然而,在寻找“有用”的材料(如凡士林、特氟隆、青霉素)时,我们必须记住,其中许多材料来自自然界中常见的化合物。此外,这些化合物的效用往往是事后才发现的。与之相反的是,有针对性的搜索需要花费更多的时间和资源(即使这样,人们也可能不得不使用已知的“有用”化合物作为起点)。为了给读者提供一些视角,据估计,药理活性化学空间(即分子数)为1060!在这样的空间中手动搜索将花费大量时间和资源,甚至在测试和扩展阶段之前。
那么人工智能是如何进入这一切的?它是如何加速化学发现的?
首先,机器学习改进了现有的模拟化学环境的方法。我们已经提到,计算化学允许我们部分绕过实验室实验。然而,模拟量子力学过程的计算化学计算在计算成本和化学模拟精度方面都非常低。计算化学的核心问题是求解复杂分子的电子薛定谔方程——也就是说,给定一组原子核的位置和电子总数,计算出感兴趣的性质。只有一个电子系统才可能得到精确解,而对于其他系统,我们必须依赖“足够好”的近似。此外,许多常用的近似薛定谔方程的方法都是指数级的,这使得蛮力解很难解决。在过去的一个世纪里,已经开发了许多方法来加速计算,同时又不牺牲太多的精度;然而,即使是一些“更便宜”的方法也会造成计算瓶颈。
人工智能加速这些计算的一种方法是将它们与机器学习结合起来。另一种方法通过直接将分子表征映射到所需性质,完全绕过了物理过程的建模。这两种方法都使化学家能够更有效地筛选化学数据库中的各种性质,如原子电荷、电离能等。
虽然更快的计算是一种进步,但它并没有解决我们仍然局限于已知化合物的事实——这只是活性化学空间的一小部分。我们仍然需要手动指定要分析的分子。我们如何扭转这种模式,设计一种算法来搜索化学空间,并为我们找到合适的候选者?答案可能在于将生成模型应用于分子发现问题。
但在我们讨论这一点之前,有必要先讨论一下化学结构是如何用数字表示的(以及哪些结构可以用于生成性建模)。在过去几十年中,已经开发了许多表示法,其中大部分属于以下四个类别之一:
毫不奇怪,化学结构可以用阵列来表示。最初,分子的阵列表示用于协助化学数据库搜索;然而,在21世纪初,一种称为扩展连通指纹(Extended connectivity fingerprints,ECFPs)的新型阵列表示被引入。ECFP是专门为捕捉与分子活动相关的特征而设计的,在试图预测分子性质时,ECFP通常是首批测试的表征之一。
化学结构信息也可以转储到文本文件中,这是量子化学计算的常见输出。这些文本文件可能包含非常丰富的信息,但是,它们通常不是机器学习模型的有用输入。另一方面,字符串表示法的语法中包含大量信息;这使得它们特别适合生成性建模,就像文本生成一样。
最后,基于图形的表示是一种自然的方法,它不仅允许我们在节点嵌入中编码特定于原子的属性,还允许我们在边缘嵌入中捕获化学键。此外,当与消息传递相结合时,这些方法允许我们考虑(并配置)相邻节点对节点的影响,这反映了化学结构中的原子如何相互影响。这些特性使基于图形的表示成为深度学习模型的一种常用输入表示。
上面的表示类型可以有自己的子类型;不幸的是,对于任何特定的问题,哪种类型的表示方式最有效也是不确定的。例如,阵列表示通常是属性预测的首选,但在过去几年中,图形表示也成为了强有力的竞争者。还需要注意的是,根据问题的不同,多种类型的表示可以相互结合使用。
那么怎么做(哪一个?)表征可以用来探索化学空间吗?我们已经提到,字符串表示法适用于生成建模。最初,图形表示不太容易受到生成性建模的影响,但由于变分自动编码器(VAE),它最近成为了一个强有力的竞争者;后者被证明特别有用,因为它们允许我们拥有一个连续的、更具机器可读性的表示。一项研究使用VAEs表明,字符串和图形都可以被编码和解码到一个潜在空间中,在这个空间中,分子不再是离散的,而是实值连续向量,可以解码回离散的分子表示(可能有效,也可能无效);不同载体之间的欧氏距离对应于化学相似性。在编码器和解码器之间添加另一个模型,从潜在空间的任何点预测目标属性。
但是,尽管生成分子本身是一项简单的任务——人们可以采用任何生成模型,并将其应用于他们想要的表示形式——但生成既具有化学有效性又具有我们想要的性质的结构,是一个更具挑战性的问题。
实现这一目标的最初方法是在现有数据集上建立预训练模型,然后将其用于迁移学习。通过校准数据集对模型进行偏置,可以生成偏向特定属性的结构,可以使用不同的算法(如强化学习)对其进行进一步校准。这方面的几个例子涉及使用字符串或图形表示法;然而,它们在化学有效性方面遇到了困难,或者在达到所需性能方面不够成功。此外,依赖预训练数据集会限制搜索空间,并可能引入不必要的偏见。
一种尝试是利用马尔可夫决策过程(MDP)来确保化学结构的有效性,并通过深度Q学习优化MDP以获得所需的性质。该模型的一个特别优点是,它允许用户可视化不同操作的有利性。下图显示了这个想法在实践中的作用;模型认为有利的增量步骤是从初始结构开始,以最大化特定属性。
尽管人工智能还处于起步阶段,但它在探索化学空间方面已经显示出了巨大的潜力。它为我们探索化学空间提供了一个新的范例;检验理论和假设的新方法。虽然计算方法不像实验研究那样精确或基于经验主义,但在可预见的未来,计算方法仍然是一个活跃的研究领域,并且已经成为任何研究团队的一部分。
到目前为止,我们已经讨论了人工智能如何通过利用生成算法搜索化学空间来帮助更快地发现新的化学物质。虽然这是一个更值得注意的用例,但它绝不是详尽无遗的。人工智能正在应用于化学中的许多其他问题,其中包括:
自动化实验室工作。我们可以使用机器学习技术来加速合成工作流本身。一种方法是使用“自动驾驶实验室”自动化日常任务,优化资源消耗,节省时间。虽然还相对较新,但一个值得注意的例子是使用机器人平台Ada自动化薄膜材料的合成、加工和表征(参见此处的“行动中的平台”)。另一项研究展示了移动机器人化学家的使用,该化学家能够在八天内操作仪器并进行688个实验的测量。
反应预测。我们可以使用分类模型来预测将发生的反应类型,或者简化问题并预测是否会发生反应。有许多不同的方法来解决这个建模问题。
化学数据挖掘。和许多其他学科一样,化学有大量的科学文献可用于研究趋势和相关性。一个值得注意的例子是利用人类基因组计划提供的大量信息进行数据挖掘,以确定基因组数据的趋势。
最后,虽然新的数据驱动趋势正在迅速发展,并已经产生了影响,但它们也给我们带来了许多新的挑战,包括:
计算和实验之间的差距。虽然计算方法的目标是帮助实现实验的目标,但前者的结果并不总是可以转移到后者。例如,在使用机器学习寻找候选分子时,人们必须记住,分子在其合成途径中很少是唯一的,而且通常很难知道未经探索的化学反应在实践中是否有效。即使会,目标化合物的产量、纯度和分离也存在问题。计算和实验工作之间的差距变得更大,因为前者所使用的指标并不总是可以转移到后者(上面提到的QED只是许多例子中的一个),而且实验验证可能不可行。
需要更好的数据库,缺乏基准。整个化学空间是无限的,所以我们最希望的是有足够大的样本来帮助我们推广。然而,目前大多数数据库的设计目的不同,通常使用不同的文件格式;他们中的一些人缺乏提交文件的验证程序,或者他们的设计没有考虑人工智能任务。此外,我们拥有的大多数数据库在其化学范围内都是有限的——它们只包含某些类型的分子。最后,大多数涉及使用人工智能进行化学预测的任务都缺乏基准,因此无法对许多不同的研究进行比较。AlphaFold成功的主要原因之一是,它将上述所有内容作为蛋白质结构预测(CASP)竞争的关键评估的一部分提供,这表明需要有组织的努力来简化和改进涉及化学预测的其他任务。
随着我们继续进入数字时代,新的算法和更强大的硬件将继续揭开之前棘手问题背后的面纱。人工智能与化学发现的结合仍处于初级阶段,但听到“数据驱动的发现”这个词已经不稀奇了许多公司——无论是制药巨头还是年轻的初创公司——已经采用了上述许多技术,并由此提高了化学的自动化、效率和再现性。人工智能使我们能够以前所未有的规模进行科学研究,在过去几年中,这已经产生了许多倡议,并吸引了资金,将继续带领我们进入自主科学发现的时代。
维克多·卡诺·吉尔是卡尔顿大学的博士生,由克里斯托弗·罗利教授担任顾问。他的研究领域是化学信息学,尤其是利用机器学习研究分子和蛋白质之间的共价反应。
@文章{CanoGil2022化学,作者{Victor,Cano Gil},标题{AI如何改变化学发现},期刊{The Gradient},年份{2022},出版方式{\url{https://thegradient.pub/how-ai-is-changing-chemical-discovery} }, }