由Google AI开发的人工智能(AI)网络使DeepMind脱颖而出,在解决生物学最严峻的挑战之一方面取得了巨大飞跃-从蛋白质的氨基酸序列确定蛋白质的3D形状。
DeepMind的名为AlphaFold的程序在两年一次的称为CASP的蛋白质结构预测挑战赛中胜过其他约100个团队,该挑战是关键的结构预测评估。结果于11月30日在今年几乎举行的会议开始时宣布,会议总结了这次演习。
“这很重要,”马里兰大学公园分校的计算生物学家约翰·莫尔特(John Moult)说。他于1994年与人共同创立了CASP,以改进精确预测蛋白质结构的计算方法。 “从某种意义上说,问题已经解决。”
从氨基酸序列准确预测蛋白质结构的能力将对生命科学和医学带来巨大的好处。这将极大地加快了解细胞组成部分的工作,并使更快,更先进的药物发现成为可能。
AlphaFold在上一届CASP中名列前茅-在2018年,这是总部位于伦敦的DeepMind参加的第一年。但是,今年,该机构的深度学习网络比其他团队领先,而且科学家说,它们的表现令人难以置信,可以预示生物学革命。
“这是改变游戏规则的事物,”德国图宾根马克斯·普朗克发展生物学研究所的进化生物学家安德烈·卢帕斯说,他评估了CASP中不同团队的表现。 AlphaFold已经帮助他找到了困扰他实验室十年的蛋白质结构,他希望这种结构会改变他的工作方式和解决的问题。 “这将改变医学。它将改变研究。它将改变生物工程。它将改变一切。”卢帕斯补充说。
在某些情况下,AlphaFold的结构预测与使用“金标准”实验方法(例如X射线晶体学以及近年来的低温电子显微镜(cryo-EMscopy,cryo-EM))确定的结构预测没有区别。科学家表示,AlphaFold可能不会消除对这些费力且昂贵的方法的需求,但是AI将使人们有可能以新的方式研究生物。
蛋白质是生命的基础,负责细胞内部发生的大部分事情。蛋白质的工作方式和作用取决于其3D形状-“结构即功能”是分子生物学的公理。蛋白质仅在物理定律的指导下趋于无助地采用其形状。
几十年来,实验室实验一直是获得良好蛋白质结构的主要途径。从1950年代开始,使用X射线束照射结晶的蛋白质并将衍射光转换为蛋白质的原子坐标的技术,确定了蛋白质的第一个完整结构。 X射线晶体学已经证明了大部分蛋白质结构。但是,在过去的十年中,cryo-EM已成为许多结构生物学实验室的首选工具。
长期以来,科学家一直想知道蛋白质的组成部分(一串不同的氨基酸)如何绘制出最终形状的许多曲折。研究人员说,1980年代和1990年代早期使用计算机预测蛋白质结构的尝试效果不佳。当其他科学家将其应用于其他蛋白质时,对已发表论文中方法的崇高主张往往会瓦解。
穆尔(Moult)启动了CASP,以使这些工作更加严格。本次活动要求团队预测使用实验方法已解决但尚未公开的蛋白质结构。穆尔特认为实验是他的工作-他没有称其为竞争-通过在过度夸大的主张上花费时间来大大改善了这一领域。他说:“您真正地发现了看起来很有希望的,有效的,应该远离的东西。”
DeepMind在2018年CASP13上的表现震惊了该领域的许多科学家,长期以来,它一直是小型学术团体的堡垒。伊利诺伊州芝加哥大学的计算机生物学家徐进波说,但是它的方法与其他应用AI的团队大致相似。
AlphaFold的第一次迭代将称为深度学习的AI方法应用于结构和遗传数据,以预测蛋白质中氨基酸对之间的距离。负责该项目的DeepMind的约翰·杰普(John Jumper)说,在不调用AI的第二个步骤中,AlphaFold使用此信息提出了蛋白质外观的“共识”模型。
团队试图以这种方法为基础,但最终陷入困境。 Jumper说,因此,它改变了策略,并开发了一个AI网络,该网络结合了有关确定蛋白质如何折叠的物理和几何约束的其他信息。他们还设定了一个更加艰巨的任务:网络不是预测氨基酸之间的关系,而是预测目标蛋白质序列的最终结构。 Jumper说:“这是一个相当复杂的系统。”
CASP历时数月。定期释放目标蛋白质或称为域的蛋白质部分(总共约100个),研究小组有数周的时间来提交其结构预测。然后,一组独立的科学家使用度量标准来评估预测结果,该度量标准可评估预测的蛋白质与实验确定的结构的相似程度。评估者不知道谁在做出预测。
卢帕斯说,AlphaFold的预测以“ 427组”的名义出现,但是其许多条目的惊人准确性使它们脱颖而出。 “我猜是AlphaFold。大多数人都有。”他说。
一些预测比其他预测更好,但将近三分之二的质量与实验结构相当。穆尔特说,在某些情况下,尚不清楚AlphaFold的预测与实验结果之间的差异是预测误差还是实验的伪像。
Moult说,AlphaFold的预测与通过核磁共振波谱技术确定的实验结构的匹配度很差,但这可能取决于原始数据如何转换为模型。该网络还努力为蛋白质复合物或组中的单个结构建模,从而与其他蛋白质的相互作用扭曲了它们的形状。
总体而言,与上一个CASP相比,团队今年对结构的预测更为准确,但是大部分进展可以归因于AlphaFold,Moult说。穆尔特说,在被认为中等难度的蛋白质靶标上,其他团队的最佳表现通常在100分的预测准确度上得分75,而在相同的靶标上AlphaFold得分大约90。
穆尔特说,大约有一半的团队在总结他们的方法时抽象地提到了“深度学习”,这表明人工智能正在对该领域产生广泛的影响。其中大多数来自学术团队,但是微软和中国科技公司腾讯也加入了CASP14。
纽约市哥伦比亚大学的计算生物学家,CASP参与者Mohammed AlQuraishi渴望在比赛中深入研究AlphaFold的性能细节,并在DeepMind团队于12月1日提出方法时进一步了解该系统的工作原理。他说,有可能(但不太可能)使蛋白质靶标比平常容易种植。 AlQuraishi的强烈直觉是AlphaFold将具有变革性。
“我认为可以说这将对蛋白质结构预测领域造成极大破坏。我怀疑许多人会离开该领域,因为核心问题可以解决。”他说。 “这是一阶技术的突破,无疑是我一生中最重要的科学成果之一。”
AlphaFold的预测有助于确定Lupas实验室多年来试图破解的细菌蛋白质的结构。卢帕斯(Lupas)的研究小组以前曾收集过原始的X射线衍射数据,但要将这些类似罗夏(Rorschach)的图案转换为结构,则需要有关蛋白质形状的一些信息。获取此信息的技巧以及其他预测工具均失败了。卢帕斯说:“在我们花了十年时间尝试一切之后,427组的模型在半小时内为我们提供了结构。”
DeepMind的联合创始人兼首席执行官Demis Hassabis说,该公司计划使AlphaFold有用,以便其他科学家可以使用它。 (它先前已经发布了有关AlphaFold第一个版本的足够详细信息,以供其他科学家复制该方法。)AlphaFold可能需要几天的时间才能得出预测的结构,其中包括对蛋白质不同区域可靠性的估计。 Hassabis补充说:“我们才刚刚开始了解生物学家的需求。”他认为药物发现和蛋白质设计是潜在的应用。
2020年初,该公司发布了一些SARS-CoV-2蛋白的结构预测,这些蛋白尚未通过实验确定。加州大学伯克利分校的分子神经生物学家Stephen Brohawn说,DeepMind对一种叫做Orf3a的蛋白质的预测最终与后来通过cryo-EM确定的蛋白质非常相似。他补充说:“他们的能力令人印象深刻。”
AlphaFold不太可能关闭像Brohawn这样使用实验方法来解决蛋白质结构的实验室。但这可能意味着,低质量且易于收集的实验数据将是获得良好结构所需的全部。某些应用(例如蛋白质的进化分析)之所以蓬勃发展,是因为现在可用的基因组数据海啸可能会可靠地转化为结构。卢帕斯说:“这将使新一代的分子生物学家能够提出更高级的问题。” “这将需要更多的思考和更少的移液操作。”
“这是一个我一生都无法解决的问题,”英国欣克顿欧洲分子生物学实验室-欧洲生物信息学研究所的结构生物学家,前CASP评估员珍妮特·桑顿说。她希望这种方法可以帮助阐明人类基因组中数千种未溶解蛋白的功能,并弄清人与人之间因疾病而异的基因变异。
AlphaFold的性能也标志着DeepMind的转折点。该公司以使用AI来熟练掌握Go等游戏而闻名,但其长期目标是开发能够实现广泛的类人智能的程序。 Hassabis说,应对巨大的科学挑战,例如蛋白质结构预测,是其AI可以实现的最重要的应用之一。 “就现实世界的影响而言,我确实认为这是我们所做的最重要的事情。”