DeepMind解决的蛋白质折叠

2020-11-30 23:57:50

蛋白质对于生命至关重要,几乎可以支持其所有功能。它们是大型复杂分子,由氨基酸链组成,蛋白质的作用很大程度上取决于其独特的3D结构。弄清楚蛋白质折叠成什么形状被称为“蛋白质折叠问题”,并且在过去的50年中一直是生物学上的巨大挑战。在重大的科学进步中,两年一次的蛋白质结构预测关键评估(CASP)的组织者认为,我们最新的AI系统AlphaFold版本可以解决这一挑战。这一突破表明,人工智能可以对科学发现产生影响,并有潜力极大地加速解释和塑造我们世界的一些最基本领域的进步。

蛋白质的形状与其功能密切相关,并且预测这种结构的能力使人们对蛋白质的功能和功能有了更深入的了解。从根本上说,世界上许多最大的挑战都与蛋白质及其发挥的作用有关,例如开发疾病的治疗方法或寻找能分解工业废物的酶。

近50年来,我们一直坚持这一问题-蛋白质如何折叠。看到DeepMind为这个问题提供解决方案,他已经在这个问题上工作了很长时间,并且经过了无数次停滞后,不知道我们是否会到达那里,这是一个非常特殊的时刻。

多年来,这一直是密集科学研究的重点,它使用各种实验技术来检查和确定蛋白质结构,例如核磁共振和X射线晶体学。这些技术以及诸如冷冻电子显微镜之类的较新方法取决于广泛的反复试验,每个结构可能要花费数年的艰辛和艰巨的工作,并且需要使用数百万美元的专用设备。

在1972年诺贝尔化学奖的获奖演讲中,克里斯蒂安·安芬森(Christian Anfinsen)著名地提出,从理论上讲,蛋白质的氨基酸序列应完全决定其结构。他的假设引发了长达五年的探索,希望能够仅基于其氨基酸序列来计算蛋白质的3D结构,以作为这些昂贵且费时的实验方法的补充选择。然而,一个主要的挑战是蛋白质在进入最终的3D结构之前在理论上可以折叠的方式是天文数字。 1969年,赛勒斯·莱文塔尔(Cyrus Levinthal)指出,通过蛮力计算来枚举典型蛋白质的所有可能构型所需的时间比已知宇宙的时间长-莱文萨尔估计典型蛋白质的10 ^ 300种可能构象。然而在自然界中,蛋白质会自发折叠,有些会在几毫秒内折叠-这种二分法有时被称为莱文塔尔悖论。

1994年,John Moult教授和Krzysztof Fidelis教授创立了CASP,作为两年一次的盲目评估,以促进研究,监测进展并建立蛋白质结构预测的最新技术水平。它既是评估预测技术的金标准,也是建立在共同努力基础上的独特全球社区。最重要的是,CASP选择刚在实验上确定的蛋白质结构(在评估时仍在等待确定)作为团队测试其结构预测方法的目标。它们不会提前发布。参与者必须盲目预测蛋白质的结构,然后将这些预测与可获得的地面真实实验数据进行比较。我们要感谢CASP的组织者和整个社区,尤其是实验人员,他们的结构能够进行这种严格的评估。

CASP用来衡量预测准确性的主要指标是全球距离测试(GDT),范围为0-100。简单来说,GDT可以近似地认为是距正确位置的阈值距离内的氨基酸残基(蛋白质链中的小珠)的百分比。根据Moult教授的说法,大约90 GDT的分数被非正式地认为与通过实验方法获得的结果具有竞争力。

在今天发布的第14份CASP评估结果中,我们最新的AlphaFold系统在所有目标上的GDT总体平均得分为92.4。这意味着我们的预测的平均误差(RMSD)约为1.6埃,相当于原子的宽度(或0.1纳米)。即使对于最困难的蛋白质目标,也就是最具挑战性的自由建模类别中的蛋白质目标,AlphaFold的中位得分也达到了87.0 GDT(此处提供数据)。

这些令人振奋的结果为生物学家打开了将计算结构预测用作科学研究中的核心工具的潜力。我们的方法可能证明对重要的一类蛋白质(例如膜蛋白)特别有用,这些蛋白质很难结晶,因此很难通过实验确定。

这项计算工作代表了蛋白质折叠问题的惊人进展,这是一个已有50年历史的生物学重大挑战。几十年来,该领域的许多人已经预料不到。看到它将从根本上改变生物学研究的多种方式将是令人兴奋的。

我们于2018年使用初始版本的AlphaFold首次进入CASP13,在参与者中获得了最高的准确性。之后,我们在自然界中发表了有关CASP13方法的论文以及相关代码,该论文继续启发了其他工作和社区开发的开源实现。现在,我们开发的新的深度学习架构推动了CASP14方法的变化,使我们能够实现无与伦比的准确性。这些方法从生物学,物理学和机器学习领域以及过去半个世纪中在蛋白质折叠领域的许多科学家的工作中汲取了灵感。

折叠的蛋白质可以被视为“空间图”,其中残基是结点,边缘将残基紧密相连。该图对于理解蛋白质内部的物理相互作用及其进化历史非常重要。对于CASP14上使用的最新版本的AlphaFold,我们创建了一个基于注意力的神经网络系统,该系统经过端到端训练,试图解释该图的结构,同时对它所隐含的图进行推理。它使用进化相关序列,多序列比对(MSA)和氨基酸残基对表示来完善该图。

通过重复此过程,系统可以对蛋白质的基本物理结构进行强有力的预测,并能够在几天之内确定高精度的结构。此外,AlphaFold可以使用内部置信度量度来预测每个预测的蛋白质结构的哪些部分是可靠的。

我们对该系统进行了公开训练,包括来自蛋白质数据库的约170,000种蛋白质结构以及包含未知结构蛋白质序列的大型数据库,对该系统进行了培训。它使用了大约128个TPUv3内核(大约相当于100-200个GPU),运行了几周,在当今机器学习中使用的大多数大型最新模型的情况下,这是相对适中的计算量。与我们的CASP13 AlphaFold系统一样,我们正在准备有关该系统的论文,以适时提交给同行评审期刊。

DeepMind在十年前开始时,我们希望有一天AI突破能够帮助我们进一步了解基础科学问题。现在,经过4年的构建AlphaFold的努力,我们开始看到这种愿景的实现,对药物设计和环境可持续性等领域具有重要意义。

马克斯·普朗克发育生物学研究所所长,CASP评估员Andrei Lupas教授告诉我们,“ AlphaFold惊人的精确模型使我们能够解决近十年来被困的蛋白质结构,从而重新致力于了解信号如何跨细胞膜传输。”

我们对AlphaFold对生物学研究和整个世界的影响感到乐观,并很高兴与他人合作,以进一步了解其在未来几年的潜力。除了撰写经过同行评审的论文外,我们还在探索如何最好地以可扩展的方式为系统提供更广泛的访问。

同时,我们也正在研究蛋白质结构预测如何与少数专家小组一起有助于我们对特定疾病的理解,例如,通过帮助鉴定出故障的蛋白质并推断其相互作用方式。这些见解可以使药物开发工作更加精确,从而补充现有的实验方法,从而更快地找到有希望的治疗方法。

AlphaFold是上一代产品中的佼佼者,以惊人的速度和精度预测蛋白质结构。这一飞跃证明了计算方法将如何转变生物学研究,并为加速药物发现过程具有广阔的前景。

作为科学界开发的众多工具之一,我们还发现有迹象表明蛋白质结构预测可能在未来的大流行应对工作中有用。今年早些时候,我们预测了SARS-CoV-2病毒的几种蛋白质结构,包括ORF3a,其结构以前未知。在CASP14,我们预测了另一种冠状病毒蛋白ORF8的结构。实验人员令人印象深刻的快速工作现已证实ORF3a和ORF8的结构。尽管它们具有挑战性并且相关序列很少,但是与它们的实验确定的结构相比,我们在两个预测中均获得了很高的准确性。

除了加深对已知疾病的了解之外,我们对这些技术有潜力探索我们目前尚无模型的亿万种蛋白质(广阔的未知生物学领域)的潜力感到兴奋。由于DNA指定了构成蛋白质结构的氨基酸序列,因此基因组学革命使得从自然界大规模读取蛋白质序列成为可能-拥有1.8亿个蛋白质序列,并在通用蛋白质数据库(UniProt)中进行计数。相反,鉴于需要进行从序列到结构的实验工作,蛋白质数据库(PDB)中只有约170,000种蛋白质结构。在尚未确定的蛋白质中,可能有一些具有令人兴奋的新功能,并且就像望远镜可以帮助我们更深入地了解未知的宇宙一样,像AlphaFold这样的技术也可以帮助我们找到它们。

AlphaFold是迄今为止我们最重要的进步之一,但是与所有科学研究一样,仍然有许多问题需要解答。并非我们预测的每个结构都是完美的。还有很多东西需要学习,包括多种蛋白质如何形成复合物,它们如何与DNA,RNA或小分子相互作用以及我们如何确定所有氨基酸侧链的精确位置。与他人合作,还有很多东西要学习如何在新药开发中最好地利用这些科学发现,如何管理环境等等。

对于我们所有致力于科学计算和机器学习方法的人来说,诸如AlphaFold之类的系统都证明了AI作为辅助基础发现工具的惊人潜力。就在50年前,安芬森(Angensen)提出了当时远远超出科学范围的挑战,而我们宇宙的许多方面仍然未知。今天宣布的进展使我们更加相信,人工智能将成为人类在扩展科学知识前沿方面最有用的工具之一,我们期待着多年的艰苦努力和发现!

John Jumper,Richard Evans,Alexander Pritzel,Tim Green,Michael Figurnov,Kathryn Tunyasuvunakool,Olaf Ronneberger,Russ Bates,AugustinŽídek,Alex Bridgland,Clemens Meyer,Simon AA Kohl,Anna Potapenko,Andrew J Ballard,Andrew Cowie,Bernardino Romera Paredes,Stanislav Nikolov,Rishub Jain,Jonas Adler,Trevor Back,Stig Petersen,David Reiman,Martin Steinegger,Michalina Pacholska,David Silver,Oriol Vinyals,Andrew W Senior,Koray Kavukcuoglu,Pushmeet Kohli,Demis Hassabis。

2020年11月30日至12月4日,在《蛋白质结构预测技术的第十四次关键评估》中(摘要)。

在探索如何最好地使其他小组使用我们的结构预测的同时,我们正准备开始,同时准备供同行评审的论文以供出版。尽管我们的团队无法回答每一个询问,但如果AlphaFold与您的工作有关,请向[email protected]提交几行相关信息。如果有进一步探索的余地,我们将与您联系。