DeepMind 将整个人类蛋白质组放在网上,由 AlphaFold 折叠

2021-07-22 23:37:30

AlphaFold 蛋白质结构数据库是 DeepMind、欧洲生物信息学研究所和其他机构之间的合作,由数十万个蛋白质序列组成,其结构由 AlphaFold 预测——并且计划增加数百万个以创建“蛋白质年鉴”。世界。” DeepMind 创始人兼首席执行官 Demis Hassabis 表示:“我们相信,这项工作代表了人工智能迄今为止为推进科学知识水平所做的最重要贡献,并且是人工智能可以为社会带来的好处的一个很好的例子。”如果您一般不熟悉蛋白质组学——如果是这种情况,这很自然——考虑这一点的最佳方式可能是另一项重大工作:对人类基因组进行测序。您可能还记得 90 年代末和 00 年代初,这是全球众多科学家和组织多年来进行的一项巨大努力。最终完成的基因组有助于诊断和了解无数疾病,并有助于开发药物和治疗方法。然而,这只是该领域工作的开始——就像完成一个巨大拼图的所有边缘部分。那些年每个人都将目光投向的下一个重大项目之一是了解人类蛋白质组——也就是说,人体使用的所有蛋白质并编码到基因组中。蛋白质组的问题在于它要复杂得多。蛋白质,如 DNA,是已知分子的序列;在 DNA 中,这些是少数熟悉的碱基(腺嘌呤、鸟嘌呤等),但在蛋白质中,它们是 20 个氨基酸(每个氨基酸由基因中的多个碱基编码)。这本身就造成了更多的复杂性,但这只是开始。这些序列不是简单的“代码”,而是实际上扭曲并折叠成微小的分子折纸机器,在我们体内完成各种任务。这就像从二进制代码转变为一种在现实世界中显示对象的复杂语言。实际上,这意味着蛋白质组不仅由 20,000 个序列组成,每个序列都有数百个酸,而且这些序列中的每一个都具有物理结构和功能。理解它们最难的部分之一是弄清楚给定序列形成了什么形状。这通常是使用 X 射线晶体学之类的实验来完成的,这是一个漫长而复杂的过程,可能需要数月或更长时间才能找出单个蛋白质——如果您碰巧拥有最好的实验室和技术可供您使用。结构也可以通过计算来预测,尽管这个过程从来没有足够好到实际依赖——直到 AlphaFold 出现。没有深入研究计算蛋白质组学的整个历史(尽管我很想),我们基本上从 15 年前的分布式蛮力策略开始——还记得 Folding@home 吗? - 在过去十年中更加磨练的过程。然后基于人工智能的方法出现了,在 2019 年引起了轰动,当时 DeepMind 的 AlphaFold 超越了世界上所有其他系统——然后在 2020 年又一次飞跃,达到了足够高和足够可靠的准确度水平,这促使一些专家宣布了这个问题将任意序列转换为已解决的 3D 结构。

我只是将这段漫长的历史压缩成一段,因为当时它被广泛覆盖,但很难夸大这一进展是多么突然和完整。几十年来,这个问题一直困扰着世界上最优秀的人才,它从“我们可能有一种有效的方法,但速度极其缓慢且成本高昂”到“准确、可靠,并且可以在关闭的情况下完成”。架式计算机”在一年的时间里。 DeepMind 进展的具体细节以及它是如何实现这些进展的,我将留给计算生物学和蛋白质组学领域的专家,他们无疑将在未来几个月和几年内对这项工作进行分解和迭代。今天我们关注的是实际结果,因为该公司利用自 AlphaFold 2(2020 年显示的版本)发布以来的时间,不仅调整模型,而且运行它......在他们可以获得的每一个蛋白质序列上。结果是人类蛋白质组的 98.5% 现在被“折叠”,正如他们所说,这意味着有一个预测结构,人工智能模型有足够的信心(重要的是,我们对它的信心有足够的信心)代表真实的东西。哦,他们还折叠了 20 种其他生物的蛋白质组,如酵母和大肠杆菌,总计约 350,000 个蛋白质结构。到目前为止,它是这个绝对重要信息的最大和最好的集合——按数量级计算。所有这些都将作为一个可自由浏览的数据库提供,任何研究人员都可以简单地将序列或蛋白质名称插入其中,并立即获得 3D 结构。该过程和数据库的详细信息可以在今天发表在《自然》杂志上的一篇论文中找到。 Hassabis 在接受 TechCrunch 采访时说:“明天你将看到的数据库,它是一个搜索栏,几乎就像谷歌搜索蛋白质结构一样。”你可以在 3D 可视化器中查看它,放大它,询问基因序列……使用 EMBL-EBI 进行的好处是它与所有其他数据库相关联。所以你可以立即去查看相关基因,它与所有其他数据库相关联,你可以看到相关基因,与其他生物体相关,其他具有相关功能的蛋白质,等等。” “作为一名科学家,研究一种几乎深不可测的蛋白质,”EMBL-EBI 的 Edith Heard 说(她没有具体说明是什么蛋白质),“知道你可以找出蛋白质的商业目的是什么真的很令人兴奋现在,在如此短的时间内——这将需要数年时间。因此,能够访问该结构并说“啊哈,这是业务端”,然后您就可以专注于尝试弄清楚该业务端的作用。而且我认为这正在逐步加速科学发展,有点像几十年前能够对基因组进行测序。”能够做到这一点的想法非常新颖,Hassabis 说他完全期望整个领域发生变化——并随之改变数据库。

“结构生物学家还不习惯这样的想法,即他们可以在几秒钟内查找任何东西,而不是花费数年时间来实验确定这些东西,”他说。 “而且我认为这应该会带来全新的方法来解决可以提出的问题和可以进行的实验。一旦我们开始了解这一点,我们可能会开始构建其他工具来满足这种偶然性:如果我想查看以特定方式相关的 10,000 种蛋白质怎么办?没有真正的正常方法可以做到这一点,因为这不是目前任何人都会问的正常问题。所以我想我们将不得不开始生产新工具,一旦我们开始看到人们如何与之互动,就会有这种需求。”这包括软件本身的衍生版本和增量改进版本,这些版本已经以开源方式发布,并且具有大量的开发历史。我们已经看到了华盛顿大学贝克实验室研究人员独立开发的系统 RoseTTAFold,该系统从 AlphaFold 去年的性能推断,创造出类似但更高效的东西——尽管 DeepMind 似乎在其最新版本中再次领先。但重点是秘密酱汁可供所有人使用。尽管结构生物信息学家实现他们最美好的梦想的前景令人欣慰,但重要的是要注意,DeepMind 和 EMBL-EBI 所做的工作实际上有直接和真实的好处。在他们与被忽视疾病药物研究所的合作中可能最容易看到。正如您可能猜到的那样,DNDI 专注于非常罕见的疾病,它们不值得主要制药公司和医学研究机构给予可能导致发现治疗方法的那种关注和投资。 “这是临床遗传学中一个非常实际的问题,你有一系列可疑的突变,受影响的孩子的变化,你想尝试找出哪个可能是我们的孩子患有特定疾病的原因。遗传病。 DNDI 的 Ewan Birney 在发布前的新闻发布会上说,拥有广泛的结构信息,我几乎肯定会改进我们的做法。通常检查被怀疑是给定问题根源的蛋白质既昂贵又耗时,而对于影响相对较少的人的疾病,当它们可以应用于更常见的问题(如癌症或癌症)时,资金和时间都短缺。痴呆相关疾病。但是能够简单地调用十种健康蛋白质的结构和相同的十种突变版本,洞察力可能会在几秒钟内出现,否则可能需要多年艰苦的实验工作。 (药物发现和测试过程仍然需要数年时间,但也许现在可以从明天开始,而不是在 2025 年开始。)以免您认为过多依赖于计算机对未经实验验证的结果的预测,在另一个完全不同的情况下,一些艰苦的工作已经完成。朴茨茅斯大学的 John McGeehan 与 DeepMind 合作开发了另一个潜在用例,他解释了这如何影响他的团队在塑料分解方面的工作。

“当我们第一次将我们的七个序列发送给 DeepMind 团队时,其中两个我们已经有了实验结构。因此,当他们回来时,我们能够对其进行测试,老实说,这是其中一个时刻,当我脖子后面的头发竖起来时,”麦吉汉说。 “因为他们生产的结构与我们的晶体结构相同。事实上,在某些情况下,它们包含的信息甚至比晶体结构所能提供的还要多。我们能够直接使用这些信息来开发更快的酶来分解塑料。这些实验已经立即进行。因此,我想说,我们这里项目的加速需要数​​年时间。”计划是在接下来的一两年内,对每一种已知和已测序的蛋白质进行预测——大约在一亿左右。在大多数情况下(少数不受这种方法影响的结构似乎很快就会被人知道)生物学家应该能够对结果充满信心。在某些情况下,AlphaFold 用于预测结构的过程比实验选项更好。尽管任何 AI 模型如何实现其结果都存在很多不确定性,但 Hassabis 很清楚这不仅仅是一个黑匣子。 “对于这种特殊情况,我认为可解释性不仅仅是机器学习中经常出现的好东西,而且考虑到我们希望将其用于的严肃性,它是必须的,”他说。 “所以我认为我们已经在特定系统上做了我们做过的最多的事情,以使案例具有可解释性。因此,在算法的粒度级别上既有可解释性,也有输出方面的可解释性,以及预测和结构,以及您应该或不应该信任它们的程度,以及哪些区域是可靠的区域的预测。”尽管如此,他对系统“神奇”的描述吸引了我对潜在标题词的特殊感觉。哈萨比斯说,这个过程本身并没有什么神奇之处,但他有点惊讶他们所有的工作都产生了如此强大的东西。 “这是迄今为止我们做过的最艰难的项目,”他说。 “而且,你知道,即使我们知道代码如何工作的每一个细节,系统如何工作,我们可以看到所有的输出,当你看到它在做什么时,它仍然有点神奇……它正在接受这个,这条 1D 氨基酸链并创造出这些美丽的 3D 结构,其中很多在美学上都非常漂亮,而且在科学和功能上都很有价值。所以这更像是一种奇迹的陈述。” AlphaFold 和蛋白质组数据库的影响在一段时间内不会被普遍感受到,但几乎可以肯定——正如早期合作伙伴所证明的那样——会导致一些严重的短期和长期突破。但这并不意味着蛋白质组的奥秘就完全解开了。不是由一个长镜头。

如上所述,基因组的复杂性与基本水平的蛋白质组相比微不足道,但即使有了这一重大进展,我们也只是触及了后者的表面。 AlphaFold 解决了一个非常具体但非常重要的问题:给定一个氨基酸序列,预测该序列在现实中的 3D 形状。但是蛋白质并不是在真空中存在的。它们是一个复杂的动态系统的一部分,在这个系统中它们正在改变自己的构象,被分解和重组,对条件、元素或其他蛋白质的存在做出反应,然后围绕这些重新塑造自己。事实上,很多人类蛋白质 AlphaFold 对其预测的可信度只有中等水平,因为它们可能是根本上“无序”的蛋白质,这些蛋白质变化太大,无法确定更静态的蛋白质的方式(在这种情况下,预测将被验证为该类型蛋白质的高度准确预测因子)。因此,该团队已经为它完成了工作。 “是时候开始研究新问题了,”哈萨比斯说。 “当然,还有很多很多新的挑战。但是你提到的那些,蛋白质相互作用,蛋白质复合物,配体结合,我们实际上正在研究所有这些事情,我们有关于所有这些主题的早期项目。但我确实认为值得花一点时间来谈谈迈出这重要的一步……这是计算生物学界已经研究了 20、30 年的事情,我确实认为我们现在已经打破了这一局面问题。”