机器学习揭示了构建人造蛋白质的秘诀

2020-07-29 04:15:25

蛋白质对细胞的生命至关重要,可以执行复杂的任务并催化化学反应。长期以来,科学家和工程师一直试图通过设计能够执行新任务的人造蛋白质来利用这种力量,比如治疗疾病、捕获碳或获取能量,但许多设计用于制造这种蛋白质的过程既缓慢又复杂,失败率很高。芝加哥大学普利兹克分子工程学院(PME)的研究人员领导的一个团队开发了一种领先的过程,使用大数据设计新的蛋白质,这一突破可能会对医疗保健、农业和能源部门产生影响。

通过开发可以审查从基因组数据库中挑选出的蛋白质信息的机器学习模型,研究人员发现了相对简单的构建设计规则。当研究小组在实验室中构建这些人造蛋白质时,他们发现它们的化学性能如此之好,以至于可以与在自然界中发现的蛋白质相媲美。

我们都想知道,像进化这样一个简单的过程怎么会导致蛋白质这样高性能的材料,#34;该学院生物化学和分子生物学系、普利兹克分子工程和该学院的约瑟夫·雷根斯坦(Joseph Regenstein)教授拉马·兰加纳坦(Rama Ranganathan)说。我们发现基因组数据包含了大量关于蛋白质结构和功能的基本规则的信息,现在我们已经能够将自然界的规则包装起来,自己创造蛋白质。

蛋白质由成百上千个蛋白质组成,这些蛋白质规定了蛋白质的结构和功能。但是,理解如何构建这些序列来创造新的蛋白质一直是具有挑战性的。过去的工作已经产生了可以指定结构的方法,但功能更加难以捉摸。

Ranganathan和他的合作者在过去15年里意识到的是,基因组数据库-正在指数级增长-包含了大量关于蛋白质结构和功能的基本规则的信息。他的团队基于这些数据开发了数学模型,然后开始使用机器学习方法来揭示有关蛋白质基本设计规则的新信息。

在这项研究中,他们研究了分支酸变位酶家族的代谢酶,这是一种在许多细菌、真菌和植物中对生命至关重要的蛋白质。通过机器学习模型,研究人员能够揭示这些蛋白质背后的简单设计规则。

该模型表明,仅仅是氨基酸位置的保守性和氨基酸对进化中的相关性就足以预测新的人工序列,这些序列将具有蛋白质家族的属性。

兰格纳坦说:“我们通常认为,要建造某种东西,你必须首先深入了解它是如何运作的。”但是,如果你有足够的数据例子,你可以使用深度学习的方法来学习设计规则,即使你正在理解它是如何工作的,或者为什么它是这样建造的。

然后,他和他的合作者创建了合成基因来编码蛋白质,将它们克隆到细菌中,然后观察细菌使用正常的细胞机械制造合成蛋白质。他们发现,人造蛋白与天然分支酸变位酶蛋白具有相同的催化功能。

由于设计规则相对简单,研究人员可能用它们制造的人造蛋白质数量非常多。

Ranganathan说,约束比我们想象的要小得多。自然界的设计规则很简单,我们相信类似的方法可以帮助我们在生物学的其他复杂系统中寻找设计模型,比如生态系统或大脑。

尽管人工智能揭示了设计规则,Ranganathan和他的合作者仍然没有完全理解这些模型为什么会起作用。接下来,他们将致力于理解模型是如何得出这一结论的。他说,还有更多的工作要做。

同时,他们还希望利用这个平台来开发能够解决紧迫的社会问题的蛋白质,比如气候变化。Ranganathan和Assoc。安德鲁·弗格森(Andrew Ferguson)教授创办了一家名为Evozyne的公司,该公司将把这项技术商业化,应用于能源、环境、催化和农业。Ranganathan已经与UChicago的Polsky创业与创新中心合作,向该公司申请专利并授权其知识产权。

这个系统为我们提供了一个合理设计分子的平台,这是我们一直梦想能做到的,他说。它不仅可以教给我们蛋白质如何工作以及它们如何进化的物理原理,还可以帮助我们找到碳捕获和能量收集等问题的解决方案。更广泛地说,对蛋白质的研究甚至可能帮助我们教会我们现代机器学习背后的深层神经网络实际上是如何工作的。