人工智能研究实验室 DeepMind 使用人工智能创建了迄今为止最全面的人类蛋白质图谱。该公司是谷歌母公司 Alphabet 的子公司,正在免费发布这些数据,一些科学家将这项工作的潜在影响与人类基因组计划的潜在影响进行了比较,人类基因组计划是一项绘制每个人类基因的国际努力。蛋白质是长而复杂的分子,在体内执行许多任务,从构建组织到对抗疾病。它们的目的是由它们的结构决定的,它们像折纸一样折叠成复杂和不规则的形状。了解蛋白质如何折叠有助于解释其功能,这反过来又可以帮助科学家完成一系列任务——从对身体如何运作进行基础研究,到设计新的药物和治疗方法。以前,确定蛋白质的结构依赖于昂贵且耗时的实验。但去年 DeepMind 表明它可以使用名为 AlphaFold 的人工智能软件对蛋白质的结构进行准确预测。现在,该公司正在向公众发布该程序做出的数十万个预测。 “我认为这是 DeepMind 整个 10 年多生命周期的顶峰,”公司首席执行官兼联合创始人 Demis Hassabis 告诉 The Verge。 “从一开始,我们就打算这样做:在人工智能方面取得突破,在围棋和雅达利等游戏上进行测试,[并]将其应用于现实世界的问题,看看我们是否可以加速科学突破并使用那些造福人类的。”目前在公共领域有大约 180,000 种蛋白质结构可用,每一种都通过实验方法产生,并可通过蛋白质数据库访问。 DeepMind 正在发布对 20 种不同生物体中约 350,000 种蛋白质结构的预测,包括小鼠和果蝇等动物以及大肠杆菌等细菌。 (DeepMind 的数据与预先存在的蛋白质结构之间存在一些重叠,但由于模型的性质,究竟有多少难以量化。)最重要的是,该版本包括对 98% 的人类蛋白质的预测,大约有 20,000 种不同结构,统称为人类蛋白质组。它不是第一个公开的人类蛋白质数据集,但它是最全面、最准确的。 AlphaFold 的技术主管 John Jumper 说,如果他们愿意,科学家们可以为自己下载整个人类蛋白质组。 “有一个有效的 HumanProteome.zip,我认为它的大小约为 50 GB,”Jumper 告诉 The Verge。 “如果你愿意,你可以把它放在闪存驱动器上,但如果没有计算机进行分析,它对你没有多大好处!”在发布第一批数据后,DeepMind 计划继续增加蛋白质库,该库将由欧洲旗舰生命科学实验室欧洲分子生物学实验室 (EMBL) 维护。 EMBL 总干事伊迪丝·赫德 (Edith Heard) 表示,到今年年底,DeepMind 希望发布对 1 亿种蛋白质结构的预测,该数据集将“改变我们对生命运作方式的理解”。
哈萨比斯说,这些数据对科学和商业研究人员来说都是永久免费的。 “任何人都可以将它用于任何事情,”DeepMind 首席执行官在新闻发布会上指出。 “他们只需要归功于参与引用的人。”了解蛋白质的结构对各个领域的科学家都很有用。这些信息可以帮助设计新药,合成分解废物的新型酶,并创造对病毒或极端天气有抵抗力的作物。 DeepMind 的蛋白质预测已经被用于医学研究,包括研究导致 COVID-19 的病毒 SARS-CoV-2 的工作原理。新数据将加速这些努力,但科学家们指出,将这些信息转化为现实世界的结果仍需要大量时间。 “我认为这不会在一年内改变患者的治疗方式,但它肯定会对科学界产生巨大影响,”科罗拉多大学生物化学系教授 Marcelo C. Sousa ,告诉 The Verge。 DeepMind 高级研究科学家 Kathryn Tunyasuvunakool 表示,科学家们将不得不习惯于掌握这些信息。 “作为一名生物学家,我可以确认,我们甚至没有观察 20,000 个结构的手册,所以这个 [数据量] 是非常出乎意料的,”Tunyasuvunakool 告诉 The Verge。 “要分析成千上万的结构——这太疯狂了。”但值得注意的是,DeepMind 的软件生成蛋白质结构的预测,而不是实验确定的模型,这意味着在某些情况下需要进一步的工作来验证结构。 DeepMind 表示,它花了很多时间在其 AlphaFold 软件中构建准确度指标,该软件对每个预测的可信度进行排名。不过,蛋白质结构的预测仍然非常有用。通过实验方法确定蛋白质的结构既昂贵又耗时,并且依赖于大量的反复试验。这意味着即使是低置信度的预测也可以为科学家指明正确的研究方向,从而节省他们多年的工作。格拉斯哥大学结构生物学教授海伦瓦尔登告诉 The Verge,DeepMind 的数据将“显着缓解”研究瓶颈,但“进行生物化学和生物学评估的费力、资源消耗工作,例如,药物功能”将保留。
Sousa 之前曾在他的工作中使用过 AlphaFold 的数据,他说科学家们会立即感受到这种影响。 “在我们与 DeepMind 的合作中,我们有一个包含蛋白质样本的数据集,我们已经拥有了 10 年,但我们从未达到开发适合模型的地步,”他说。 “DeepMind 同意为我们提供一个结构,在我们坐了 10 年后,他们能够在 15 分钟内解决问题。”蛋白质由氨基酸链构成,人体中有 20 种不同的氨基酸。由于任何单独的蛋白质都可以由数百个单独的氨基酸组成,每个氨基酸都可以向不同的方向折叠和扭曲,这意味着分子的最终结构具有数量惊人的可能构型。一种估计是典型的蛋白质可以以 10^300 种方式折叠——即 1 后跟 300 个零。由于蛋白质太小而无法用显微镜检查,科学家不得不使用昂贵且复杂的方法(如核磁共振和 X 射线晶体学)间接确定其结构。简单地通过阅读其组成氨基酸列表来确定蛋白质结构的想法长期以来一直在理论上但难以实现,因此许多人将其描述为生物学的“巨大挑战”。然而,近年来,计算方法——尤其是那些使用人工智能的方法——表明这种分析是可能的。借助这些技术,人工智能系统可以在已知蛋白质结构的数据集上进行训练,并使用这些信息来创建自己的预测。许多团队多年来一直在研究这个问题,但 DeepMind 深厚的 AI 人才库和对计算资源的访问使其能够显着加快进展。去年,该公司参加了一项名为 CASP 的国际蛋白质折叠比赛,并击败了比赛。它的结果非常准确,以至于 CASP 的联合创始人之一计算生物学家 John Moult 说,“在某种意义上,[蛋白质折叠] 问题得到了解决。” DeepMind 的 AlphaFold 程序自去年的 CASP 竞赛以来已经升级,现在速度提高了 16 倍。 “我们可以在几分钟内折叠一个普通蛋白质,大多数情况下是几秒钟,”哈萨比斯说。该公司上周还以开源形式发布了 AlphaFold 的底层代码,允许其他人在未来继续其工作。雷丁大学教授 Liam McGuffin 开发了一些英国领先的蛋白质折叠软件,他称赞了 AlphaFold 的技术才华,但也指出该计划的成功依赖于数十年的先前研究和公开数据。 “DeepMind 拥有大量资源来保持这个数据库的最新状态,他们比任何一个学术团体都更有能力做到这一点,”麦高芬告诉 The Verge。 “我认为学者们最终会到达那里,但它会更慢,因为我们没有足够的资源。”
The Verge 采访的许多科学家都注意到 DeepMind 免费发布这些数据的慷慨。毕竟,该实验室归谷歌母公司 Alphabet 所有,该公司一直在向商业医疗保健项目投入大量资源。 DeepMind 本身每年都会损失很多钱,并且有很多报道称该公司与其母公司之间在研究自主权和商业可行性等问题上存在紧张关系。不过,哈萨比斯告诉 The Verge,该公司一直计划免费提供这些信息,而这样做是对 DeepMind 创始精神的实现。他强调,DeepMind 的工作在谷歌的很多地方都得到了使用——“几乎你使用的任何东西,我们的一些技术都是其中的一部分”——但该公司的主要目标一直是基础研究。 “我们被收购时达成的协议是,我们在这里主要是为了推进 AGI 和 AI 技术的发展,然后利用它来加速科学突破,”哈萨比斯说。 “[Alphabet] 有很多部门专注于赚钱,”他补充道,并指出 DeepMind 对研究的关注“为科学界带来了声望和善意方面的各种好处。可以通过多种方式实现价值。” Hassabis 预测 AlphaFold 是未来的标志——这个项目展示了人工智能在处理人类生物学等混乱问题方面的巨大潜力。 “我认为我们正处于一个非常激动人心的时刻,”他说。 “在接下来的十年中,我们和 AI 领域的其他人希望取得惊人的突破,真正加速解决我们在地球上遇到的真正大问题。”