DeepMind解决了蛋白质折叠问题吗?

2020-12-04 22:53:31

预测蛋白质折叠是一个巨大的问题,具有巨大的潜力来帮助我们了解疾病。在过去的50年里,它一直陷于发情状态,但是一个研究小组冒出来了,声称解决了这个问题。但是有吗?

蛋白质由氨基酸组成。如今,获得蛋白质的氨基酸序列非常容易。但是,从该序列到蛋白质的3维形状真的很难。

数十年来,研究人员使用缓慢且昂贵的技术(例如X射线晶体学)研究出蛋白质结构。到目前为止,使用这些方法只能解决约170,000种蛋白质。然而,已经在各种生命形式中发现了超过2亿种蛋白质

能够根据其氨基酸序列预测蛋白质的形状将改变游戏规则。通过更有效地靶向蛋白质,我们可以更快地设计药物。但是,基于计算机的预测还不够准确,无法发挥作用。到现在…

X射线晶体学使用X射线衍射来算出蛋白质的形状。图片模糊不清,涉及很多猜测!

该团队创建了一个深度学习管道,用于根据其氨基酸序列预测蛋白质的形状。

他们将此神经网络纳入“蛋白质结构预测的关键评估”(CASP)竞赛。为研究小组提供了约100个结构未知的蛋白质的氨基酸序列,并要求它们预测蛋白质的形状。预测的得分为0-100。慢速技术(如X射线晶体学)得分超过90。

首先,它从大型蛋白质序列数据库中寻找与目标蛋白质相似的序列片段。这有助于鉴定目标蛋白质的特征。自动编码器预测序列片段最可能代表的蛋白质形状。

然后将这些特征输入到卷积神经网络中,该网络可预测蛋白质序列不同部分之间的距离。预测距离使其能够预测接触点。

然后,使用预测的距离和接触点,该模型将考虑蛋白质的所有可能形状并识别出最可能的形状。

这是一种神经网络,可将数据压缩到其最重要功能的瓶颈中,并通过将该瓶颈恢复到最大大小来衡量其性能。这是一个深入的话题,值得阅读更多

使用更新的模型(AlphaFold-2),他们进行了一些更改。他们尚未发表论文(仅是摘要),但据我们所知,他们使用了基于注意力的深度学习来适应蛋白质的整个形状,而不仅仅是片段。

无需一次处理整个序列,该方法允许学习“参加”。到各个小节。这有点像尝试翻译长的德语单词,而不是尝试解码整个单词,而是将其分解为子单词,看看它们如何匹配,然后将它们放在一起。

从1994年比赛开始到2016年,CASP得分一直在40左右。DeepMind第一次参加比赛时,他们的得分就达到60。今年,AlphaFold的平均得分为92.4,打破了90/100的门槛!

实际上,竞赛的组织者认为DeepMind一直在作弊,因此他们给他们设置了特殊的挑战-一种来自古老古细菌的膜蛋白。十年来没有成功,研究团队尝试了书中的所有技巧来获得蛋白质的X射线晶体结构。

AlphaFold没问题,可以返回带有两个螺旋臂的三部分蛋白质的图像。事后看来,这种结构完全适合X射线晶体学数据,有效地超出了当前人类研究的范围。

这是一个棘手的问题,研究人员和制药公司已经研究了50多年。该模型可以预测蛋白质的形状,而无需进行不可靠的实验测量。这意味着更快的开发各种药物,从更好地靶向蛋白质以用于细胞复制的抗癌药物,到靶向微生物表面受体的抗生素。

而且,这种模型的培训成本很低-在相当小的服务器集群上仅需数周的培训

使用Google的价格计算器和博客文章中的详细信息,这笔费用约为21,000美元。在生物学和制药学的宏伟计划中,这就是几分钱!