谷歌在整个人类基因组上放开 AlphaFold

2021-07-22 23:39:02

就在 Google 的 DeepMind AI 小组最终详细描述其生物学工作一周后,该公司发布了一篇论文,解释了它如何分析人类基因组中编码的几乎所有蛋白质并预测其可能的三维结构——这种结构可能很关键用于了解疾病和设计治疗方法。在不久的将来,所有这些结构都将通过欧洲生物信息学研究所在知识共享许可下发布,该研究所已经拥有一个主要的蛋白质结构数据库。在与该论文发布相关的新闻发布会上,DeepMind 的 Demis Hassabis 明确表示该公司并没有就此止步。除了论文中描述的工作之外,该公司还将发布 20 种主要研究生物的基因组结构预测,从酵母到果蝇再到小鼠。总的来说,数据库发布将包括大约 350,000 个蛋白质结构。我们上周刚刚描述了 DeepMind 的软件,所以我们不会在这里详细介绍。这项工作是一个基于人工智能的系统,训练现有蛋白质的结构,这些结构已经通过实验室实验(通常是费力的)确定。该系统使用该训练,加上它从进化相关的蛋白质家族中获得的信息,来预测蛋白质的氨基酸链如何在三维空间中折叠起来。结果的三维结构可以为我们提供有关蛋白质的关键信息,例如它如何与其他蛋白质和化学物质相互作用以及蛋白质化学反应发生的位置。使用这种结构,研究人员可以了解特定的突变(如导致遗传疾病的突变)如何改变蛋白质的功能。研究人员还可以使用该结构设计可以与蛋白质相互作用并改变其功能的化学物质,这导致了对各种癌症和 HIV 的治疗。通常,这些结构是通过分离蛋白质、准备成像和用电子轰击它来确定的。这些技术既困难又耗时,而且经常失败。该论文估计,数十年的实验室工作只为我们留下了全套人类蛋白质的 17% 的结构信息。这解释了为什么研究人员还花了数十年时间寻找仅使用构成蛋白质的氨基酸序列来预测蛋白质结构的方法。但是在 AlphaFold 之前,软件的准确性还不够高,无法始终如一地有用。 DeepMind 并没有试图预测人类基因组中每个蛋白质的结构;有些只是太大而无法方便地处理。 (该公司将大小截断值设置为 2,700 个氨基酸,不幸的是,这比我在博士后克隆中花费的基因还要小。)但大多数蛋白质都远小于这个值,因此最终计数是预期的 98.5%基因组中的蛋白质。其中一些蛋白质仅根据人类基因组内 DNA 序列的特征预测存在。同样重要的是,AlphaFold 包括一个置信估计,用于记录其预测准确的可能性。总而言之,该软件对其预测的大约 60% 的氨基酸的位置充满信心,并且对超过三分之一的位置充满信心。换句话说,研究人员对 40% 的人类蛋白质的大部分结构有一个自信的预测。显然,这意味着在我们可以说我们对全套人类蛋白质有很好的把握之前,还有大量的工作要做。但这仍然比我们拥有实际结构的 18% 多得多。

还有大量的蛋白质没有被现有结构很好地代表。嵌入细胞膜中的那些很难分离和使用,因此研究人员还没有解决这些膜蛋白的许多结构。但是,尽管训练数据中的示例较少,但 AlphaFold 似乎可以很好地处理这些结构。系统哪里出了问题?许多蛋白质根本没有形成明确的结构——事实上,它们的功能似乎依赖于具有完全灵活的结构才能发挥作用。显然,这里很难对结构进行任何准确的预测,因为这些蛋白质(更常见的是蛋白质的部分)没有。还有许多蛋白质只有在与另一种蛋白质或化学物质接触时才会呈现其结构。由于 AlphaFold 没有这些信息,因此它无能为力。总的来说,DeepMind 团队发现 AlphaFold 对其无序区域的预测信心很低,他们可以使用该信息来识别可能是非结构化的蛋白质区域。在不久的将来(可能在您阅读本文时),所有这些数据都将在由欧洲生物信息学研究所主办的专用网站上提供,这是一个由欧盟资助的组织,其部分描述如下:“我们通过一系列服务和工具向科学界免费提供世界上的公共生物数据。” AlphaFold 数据也不例外;一旦上述链接上线,任何人都可以使用它来下载有关他们选择的人类蛋白质的信息。或者,如上所述,鼠标、酵母或果蝇版本。将发布数据的 20 种生物也只是一个开始。 DeepMind 的 Demis Hassabis 表示,在接下来的几个月里,该团队将针对 DNA 数据库中可用的每个基因序列。到这项工作完成时,应该有超过 1 亿个蛋白质已经预测了结构。哈萨比斯在结束声明时说:“我们认为这是迄今为止人工智能对科学做出的最重要的贡献。”否则很难争论。也就是说,仍有一些问题需要解决。随着时间的推移,算法无疑会得到改进,因此需要有一个系统来处理主数据库中的更新和版本控制。 DeepMind 还将 AlphaFold 的代码开源,因此存在分叉和其他并发症的可能性。但这些问题都是对未来的担忧。现在,我们都可以坐下来看着服务器竭尽全力为地球上几乎所有好奇的生物学家提供服务,他们想知道他们感兴趣的蛋白质是否具有高质量的结构。