CASP14的AlphaFold2:“感觉就像一个孩子已经离开家了。”

2020-12-12 21:00:26

Warning: Can only detect less than 5000 characters

有人说这是蛋白质的“ ImageNet时刻”,但这是不正确的IMO。 ImageNet时刻是深度学习第一次证明它可以胜过传统的图像识别方法,并引起了计算机视觉领域的关注。相对于AF2今年的进步,2012 ImageNet的进步是递增的。该领域最接近ImageNet的时刻是徐进波(Jinbo Xu)在2016年的PLoS Comp Bio论文,该论文证明了深度学习对蛋白质结构预测的首次真正影响。另一方面,这是完全不同的。更类似于2012年ImageNet的2020年准确性!如此巨大的地震性和前所未有的变化,使一夜之间的田野颠倒了。

CASP14发布的Z评分表一直在进行中,因此在这里我不进行复制,部分原因是我认为除了说“ AF2的表现比其他任何人都要好”之外,很难解释。相反,请考虑下图,该图说明了AF2与今年次佳方法之间的差异。

现在回想一下我之前说过的有关不同的GDT_TS机制的粗略含义,然后重新检查该图。这项改进令人震惊,而且全面。我们看到GDT_TS为20的结构,即由次佳方法预测的废话,而所有细节都接近90的GDT_TS !!!然后,在某些情况下,我们会看到由次佳方法预测的非常好的结构(80年代中期)会远远超过90和95!高于95处于实验精度之内。

值得一提的是,从历史上讲,在最近的记忆中,很少有一种方法能如此彻底地统治其他方法。所有的高层人士,特别是贝克和张氏,经常并驾齐驱。唯一真正的例外是最后一个CASP,当时第一个AlphaFold对1/3个目标表现最佳。这次,AF2在97个目标中的88个中表现最佳!

下面是第二和第三最佳方法之间的比较,以说明这一点。

这解决了我在社交媒体上从不熟悉CASP的人那里看到的一些担忧,例如,可能存在一个过拟合的问题;对于初学者而言,CASP组织者不遗余力地获得了真正困难的蛋白质靶标,这些靶标与已知结构大不相同。我认为可以公平地说,CASP免费建模(FM)类别的难度比存储在PDB中的大多数结构都要困难,因此,在现实条件下,CASP蛋白实际上比平时更难。但是,鉴于其他所有人(相对而言)对AF2所做的努力(相对而言),看到上面的增量进一步缓解了这些担忧。我承认这是我自己关心的问题,因为今年的目标难度每年都在变化,所以今年也许是“轻松”的一年。值得庆幸的是,CASP14的组织者量化了今年目标的难度,发现它们比以前的一些CASP难度更大,所以这是艰难的一年!

我还担心令人印象深刻的中位数可能掩盖了分布底部的一些不良预测。我很早就知道GDT_TS的中位数为92.4,但是直到CASP14的周末才可以使用完整发行版。事实证明,只有少数几个结构(准确地说是五个)的GDT_TS低于70(在AF2做出的93个预测中)。这是非常了不起的:不到10%的结构可以认为没有正确的细节。此外,当一个研究这五个分子时,两个结果证明是NMR结构,而三个则是寡聚复合物的一部分。 NMR结构可能是松散的,反映出这些蛋白质没有明确定义的结构这一事实。对于寡聚复合物,AF2仅能预测单个蛋白质链的结构,因此不能期望反映其寡聚状态。

我希望这能传达出令人震惊的AF2准确性。当查看更广泛的生物学界更常用的度量标准RMSD时,AF2对于Cα原子实现的准确度为 90%的时间)使用一种蛋白质,以合理的精度(<3-4Å)预测香草的最低能量结构(无辅因子,无专心寡聚)。同源蛋白质序列的列表,即上面第二个要点的某些版本。它似乎可以处理多域蛋白,但是在这方面还没有经过彻底的测试。这让我感到惊讶。除此之外,它还不能处理任何极端情况,并且不能单序列运行。

Warning: Can only detect less than 5000 characters

新的AF2不再概述MSA。 相反,它保留所有原始序列并迭代地“照看”它们。 在步骤n,AF2决定哪些序列值得关注,哪些序列可以安全地忽略,并据此预测距离图。 在步骤n + 1,AF2使用距离图来决定接下来要处理的序列,并基于它们预测新的距离图。 它会多次执行此操作。 尚不清楚多少,但是如果要斜视DeepMind的幻灯片,它似乎涉及数百次迭代。 通过这种方式,AF2开始在单个蛋白质结构域内建立局部结构,然后再扩展到更多的全局特征,例如蛋白质中两个结构域的相对方向。 这种方法是新颖的,具有许多潜在的优点(文献中确实存在更简单的先例)。 首先,AF2可以更深入地利用(如 ......