DeepMind 表示将释放科学已知的每种蛋白质的结构

2021-07-23 08:08:17

早在 2020 年 12 月,DeepMind 就用 AlphaFold(一种预测蛋白质结构的人工智能工具)解决了一项长达 50 年的重大挑战,震惊了生物学界。上周,这家总部位于伦敦的公司发布了该工具的完整细节并发布了其源代码。现在,该公司宣布已使用其 AI 来预测人体内几乎所有蛋白质的形状,以及在 20 种研究最广泛的生物体中发现的数十万种其他蛋白质的形状,包括酵母、水果苍蝇和老鼠。这一突破可以让世界各地的生物学家更好地了解疾病并开发新药。到目前为止,该宝库包含 350,000 个新预测的蛋白质结构。 DeepMind 表示,它将在未来几个月内预测和发布超过 1 亿个的结构——或多或少是科学已知的所有蛋白质。 “蛋白质折叠是我 20 多年来一直关注的一个问题,”DeepMind 联合创始人兼首席执行官 Demis Hassabis 说。 “这对我们来说是一个巨大的项目。我想说这是我们迄今为止所做的最大的事情。从某种意义上说,这是最令人兴奋的,因为它应该对人工智能以外的世界产生最大的影响。”蛋白质由氨基酸长带组成,这些氨基酸将自身扭曲成复杂的结。了解蛋白质结的形状可以揭示该蛋白质的作用,这对于了解疾病的工作原理和开发新药或识别有助于应对污染和气候变化的生物至关重要。在实验室中弄清楚蛋白质的形状需要数周或数月的时间。 AlphaFold 可以在一两天内预测最接近原子的形状。新数据库应该让生物学家的生活更加轻松。 AlphaFold 可能可供研究人员使用,但并非每个人都希望自己运行该软件。 “从数据库中获取结构比在自己的计算机上运行要容易得多,”华盛顿大学蛋白质设计研究所的大卫贝克说,他的实验室已经建立了自己的预测蛋白质结构的工具,称为 RoseTTAFold,基于 AlphaFold 的方法。在过去的几个月里,贝克的团队一直在与生物学家合作,他们之前一直在试图弄清楚他们正在研究的蛋白质的形状。 “有很多非常酷的生物学研究已经真正加速了,”他说。一个包含数十万个现成蛋白质形状的公共数据库应该是一个更大的加速器。

“它看起来令人印象深刻,”伦敦帝国理工学院研究酵母基因组的合成生物学家汤姆埃利斯说,他很高兴尝试使用该数据库。但他警告说,大多数预测的形状尚未在实验室中得到验证。在新版本的 AlphaFold 中,预测带有置信度分数,该工具使用该分数来标记它认为每个预测形状与真实事物的接近程度。使用这种方法,DeepMind 发现 AlphaFold 预测了 36% 的人类蛋白质的形状,准确度可以精确到单个原子的水平。 Hassabis 说,这对于药物开发来说已经足够了。此前,经过数十年的研究,人体中只有 17% 的蛋白质在实验室中确定了其结构。如果 AlphaFold 的预测像 DeepMind 所说的一样准确,那么该工具在短短几周内就将这个数字翻了一番多。即使在原子水平上不完全准确的预测仍然有用。对于人体内超过一半的蛋白质,AlphaFold 已经预测出一种形状,应该足以让研究人员弄清楚蛋白质的功能。 AlphaFold 目前的其余预测要么是不正确的,要么是针对人体中三分之一的蛋白质,这些蛋白质在与其他蛋白质结合之前根本没有结构。 “它们很松软,”哈萨比斯说。哥伦比亚大学系统生物学家 Mohammed AlQuraish 开发了自己的蛋白质结构预测软件,他说:“它可以在这种质量水平上应用,这一事实令人印象深刻。”他还指出,拥有生物体中大多数蛋白质的结构将使研究这些蛋白质如何作为一个系统而不是孤立地工作成为可能。 “这就是我认为最令人兴奋的地方,”他说。 DeepMind 正在免费发布其工具和预测,并且不会说明未来是否有从中获利的计划。不过也不排除这种可能性。为了建立和运行数据库,DeepMind 正在与欧洲分子生物学实验室合作,这是一家已经拥有大型蛋白质信息数据库的国际研究机构。现在,AlQuraishi 迫不及待地想看看研究人员如何处理新数据。 “真是太壮观了,”他说,“我认为我们中的任何人都没有想到我们会这么快就到这里。真是令人费解。”