对BioNTech / Pfizer SARS-CoV-2疫苗的源代码进行反向工程

2020-12-26 06:14:46

欢迎!在这篇文章中,我们将逐个字符地介绍BioNTech / Pfizer SARS-CoV-2 mRNA疫苗的源代码。

我要感谢花大量时间预览此文章的易读性和正确性的人们。虽然所有错误仍然属于我,但是我很想通过[email protected]或@PowerDNS_Bert迅速了解它们。

现在,这些话可能有点刺耳-疫苗是一种注射到您手臂中的液体。我们如何谈论源代码?

这是一个很好的问题,所以让我们从BioNTech / Pfizer疫苗的源代码的一小部分开始,也称为BNT162b2,也称为Tozinameran,也称为Comirnaty。

BNT162b mRNA疫苗的心脏具有此数字代码。它的长度为4284个字符,因此适合一堆推文。在疫苗生产过程的一开始,就有人将此代码上传到DNA打印机(是),然后将磁盘上的字节转换为实际的DNA分子。

这种机器中产生的DNA很少,经过大量的生物和化学处理后,DNA最终在疫苗瓶中变成了RNA(以后还会更多)。原来30毫克的剂量实际上含有30毫克的RNA。此外,还有一个巧妙的脂质(脂肪)包装系统,可将mRNA导入我们的细胞。

RNA是DNA的易失性“工作记忆”版本。 DNA就像生物的闪存存储。 DNA非常耐用,内部冗余且非常可靠。但是,就像计算机不能直接从闪存驱动器中执行代码一样,在发生某些事情之前,代码会被复制到更快,功能更广泛但更脆弱的系统中。

对于计算机,这是RAM,对于生物学,这是RNA。相似。与闪存不同,除非特别注意,否则RAM会很快降级。辉瑞/ BioNTech mRNA疫苗必须存放在最深的冷冻柜中的原因是相同的:RNA是易碎的花朵。

每个RNA字符的重量约为0.53·10 12克,这意味着每30毫克疫苗剂量中有6·10 11个字符。以字节表示,大约25 PB,尽管必须说,它包含大约2万亿次重复。相同的4284个字符。疫苗的实际信息含量刚刚超过akilobyte。 SARS-CoV-2本身的重量约为7.5 KB。

DNA是数字代码。与使用0和1的计算机不同,生命使用A,C,Gand U / T(“核苷酸”,“核苷”或“碱基”)。

在计算机中,我们将0和1存储为电荷的不存在,或作为电流,作为磁跃迁,作为电压,作为信号的调制或作为反射率的变化存储。简而言之,0和1并不是某种抽象概念-它们像电子一样生活在许多其他物理实施方案中。

实际上,A,C,G和U / T是分子,以链状存储在DNA(或RNA)中。

在计算机中,我们将8位分组为一个字节,该字节是要处理的数据的典型单位。

自然界将3个核苷酸分为一个密码子,这个密码子是典型的加工单位。密码子包含6位信息(2 * 3)。

到目前为止,还不错。如有疑问,请访问带有数字代码的WHO文档,亲自看看。

可在此处进一步阅读-此链接(“生活是什么”)可能有助于理解此页面的其余部分。或者,如果您喜欢录像,我有两个小时供您选择。

疫苗的想法是教我们的免疫系统如何抵抗病原体,而我们却不会生病。从历史上看,这是通过注入弱化或无能(减弱)的病毒,再加上“佐剂”来吓immune我们的免疫系统来完成的。这绝对是一项涉及数十亿个鸡蛋(或昆虫)的模拟技术。它还需要很多运气和时间。有时还使用其他病毒(无关)。

mRNA疫苗可以实现相同的目的(“教育我们的免疫系统”),但是可以通过激光方式实现。我的意思是从两种意义上讲-非常狭窄但也非常强大。

这就是它的工作原理。注射液中含有挥发性遗传物质,这些物质描述了著名的SARS-CoV-2“尖峰”蛋白。通过聪明的化学手段,疫苗设法使这种遗传物质进入我们的一些细胞。

然后这些分子忠实地开始大量生产SARS-CoV-2 Spike蛋白,以使我们的免疫系统发挥作用。面对Spike蛋白,以及表明细胞已被收购的明显迹象,我们的免疫系统对Spike蛋白和生产过程的多个方面产生了强大的反应。

让我们从头开始,这是一个很好的起点。世卫组织文件有以下有益帮助:

这是一种目录。我们将从“帽子”开始,实际上是一个小帽子。

就像您不能只对计算机上的文件中的操作码进行划分并运行该文件一样,生物操作系统需要标头,具有链接器和类似调用约定的内容。

这可以与每个以MZ开头的DOS和Windows可执行文件或以#!开头的UNIX脚本进行比较。在生活和操作系统中,这两个字符都不以任何方式执行。但是它们必须在那里,因为否则什么也不会发生。

mRNA“帽”具有许多功能。首先,它将代码标记为来自核。对于我们来说当然不是,我们的代码来自疫苗接种。但是我们不需要告诉细胞。帽子使我们的代码看起来合法,可以保护它不受破坏。

最初的两个GA核苷酸在化学上也与RNA的其余部分略有不同。从这个意义上讲,GA上有一些带外信号。

这里有一些术语。 RNA分子只能沿一个方向读取。令人困惑的是,读取开始的部分称为5'或'5'素。读数在3或3素数结尾处停止。

生命由蛋白质(或蛋白质制造的事物)组成。这些蛋白质在RNA中有描述。当RNA转化为蛋白质时,这称为翻译。

在这里,我们有5'非翻译区('UTR'),因此该位不会最后出现在蛋白质中:

GAAΨAAACΨAGΨAΨΨCΨΨCΨGGΨCCCCACAGACΨCAGAGAGAACCCGCCACC

在这里,我们遇到了第一个惊喜。正常的RNA字符是A,C,GandU。U在DNA中也被称为“ T”。但是在这里我们找到一个Ψ,这是怎么回事?

这是关于疫苗的特别聪明的地方之一。我们的身体运行着强大的防病毒系统(“原始系统”)。由于这个原因,细胞对外来RNA非常不热衷,并且在它做任何事情之前都尽力破坏它。

对于我们的疫苗,这有点问题-它需要越过我们的免疫系统。经过多年的实验,发现如果RNA中的U被一个稍微修饰的分子取代,我们的免疫系统就会失去兴趣。真的。

因此,在BioNTech / Pfizer疫苗中,每个U都已被1-甲基-3'-伪古ridylyl代替,用denoted表示。真正聪明的一点是,尽管这种替代作用使我们的免疫系统平静下来(平静下来),但它被细胞的相关部位视为正常的U。

在计算机安全方面,我们也知道此技巧-有时可能会传输稍有损坏的消息版本,使防火墙和安全解决方案感到困惑,但后端服务器仍然可以接受该消息-然后可能会被黑。

与其他基础科学研究一样,我们现在也从中受益,该技术的发现者们不得不为使他们的工作获得资助而被接受。我们都应该非常感激,我相信诺贝尔奖将在适当时候到来。

好,回到5'UTR。这51个字符是做什么的?由于所有事物都是自然的,几乎没有任何事物具有一种明确的功能。

当我们的细胞需要将RNA转化为蛋白质时,可以使用称为核糖体的机器来完成。核糖体就像是蛋白质的3D打印机。它摄取RNA链,并据此发出一串氨基酸,然后折叠成蛋白质。

这就是我们上面看到的情况。底部的黑色带是RNA,绿色带中出现的带是正在形成的蛋白质。

该核糖体需要物理上位于RNA链上才能起作用。一旦坐好,它就可以基于进一步的RNA刺激开始形成蛋白质。据此,您可以想象它还无法读取它首先降落的部分。这只是UTR的功能之一:核糖体着陆区。 UTR提供“导入”。

除此之外,UTR还包含元数据:何时应翻译?多少钱?对于这种疫苗,他们采取了他们所能找到的最“ UTR”方法,该方法取自α珠蛋白基因。该基因已知能产生大量蛋白质。在过去的几年中,科学家们已经找到了进一步优化该UTR的方法(根据WHO的文件),因此这并不是α珠蛋白UTR,而是更好的方法。

如上所述,疫苗的目的是使细胞产生大量SARS-CoV-2的Spike蛋白。到目前为止,我们在疫苗源代码中大多遇到了元数据和“调用约定”的内容。但是现在我们进入了实际的病毒蛋白领域。

但是,我们仍然需要一层元数据。核糖体(如上图所示)由蛋白质制成后,该蛋白质仍需要在某处移动。这被编码在“ S糖蛋白信号肽(延伸的前导序列)”中。

看到这种情况的方法是,在蛋白质的开头有一个地址标签-编码为蛋白质本身的一部分。在这种特定情况下,信号肽表示该蛋白应通过“内质网”离开细胞。甚至《星际迷航》中的术语也不像这样!

“信号肽”不是很长,但是当我们看代码时,病毒RNA和疫苗RNA之间存在差异:

(请注意,为了比较起见,我用异型RNA U代替了花哨的修饰Ψ)

3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3病毒:AUG UUU GUU UUU CUU GUU UUA UUG CCA CUA GUC UCU AGU CAG UGU GUUVaccine:AUG UUC GUG UUC CUG GUG CUG CUG CCU CUG GUG UCC AGC CAG UGU GUU ! ! ! ! ! ! ! ! ! ! ! ! !

那么发生了什么?我没有不小心将RNA分成3个字母列出。三个RNA字符组成一个密码子。每个密码子都编码一个特定的氨基酸。疫苗中的信号肽由与病毒本身完全相同的氨基酸组成。

因为有4个RNA字符,所以有4³= 64个不同的密码子,并且其中三个密码子。但是只有20种不同的氨基酸。这意味着多个密码子编码相同的氨基酸。

在该表中,我们可以看到疫苗中的修饰(UUU→UUC)都是同义词。疫苗的RNA编码不同,但是会出现相同的氨基酸和相同的蛋白质。

如果我们仔细观察,就会发现大部分变化发生在第三密码子位置,上面标有“ 3”。如果我们检查通用密码子表,就会发现这个第三位通常与产生哪种氨基酸无关紧要。

因此,这些更改是同义词,但是为什么它们在那里?仔细看,我们看到除一个变化之外的所有变化都会导致更多的C和G。

那为什么要这么做呢?如上所述,我们的免疫系统对“外源” RNA非常模糊,RNA代码来自细胞外。为了逃避检测,RNA中的“ U”已被替换为replaced。

但是,事实证明,具有较高Gs和Cs含量的RNA也可以更有效地转化为蛋白质,

并通过在可能的情况下用Gs和Cs替换许多字符在疫苗RNA中实现了这一目标。

我对不导致其他C或G的一项更改感到有点着迷,CCA-> CCU修改。如果有人知道原因,请告诉我!

疫苗RNA的下一个3777个字符也经过类似的“密码子优化”,以添加很多C和G。为了节省空间,我不会在此处列出所有代码,但是我们将放大一个特殊的位。这是使它起作用的部分,实际上将帮助我们恢复正常的生活:

* * L D K V E A E V Q I D R L I T病毒:CUU GAC AAA GUU GAG GCU GAA GUG CAA AUU GAU AUG UUG AUC ACA GGC疫苗:CUG GAC CCU CCU GAG GCC GAG GUG CAG AUC GAC AGA CUG AUC ACA GGC L D P P E !!! !! ! ! ! ! ! ! !

在这里,我们看到了通常的同义词RNA变化。例如,在第一个密码子中,我们看到CUU更改为CUG。这为疫苗增加了另一个“ G”,我们知道这有助于提高蛋白质的产量。 CUU和CUG都编码氨基酸“ L”或亮氨酸,因此蛋白质中没有任何变化。

当我们比较疫苗中的整个Spike蛋白时,所有的变化都是同义的……除了两个,这就是我们在这里看到的。

上面的第三和第四密码子代表实际变化。那里的K和V氨基酸都被“ P”或脯氨酸取代。对于'K',这需要三个更改('!!!'),对于'V',它仅需要两个更改('!!')。

那么这里发生了什么?如果您看一个真实的SARS-CoV-2颗粒,您会发现Spike蛋白以及许多尖峰:

尖峰固定在病毒体(“核衣壳蛋白”)上。但是,关键是,我们的疫苗本身只会产生尖峰,而不会将它们安装在任何类型的病毒体上。

事实证明,未经修饰的独立式Spike蛋白会塌陷成不同的结构。如果以疫苗注射,这确实会导致我们的人体产生免疫力,但仅针对塌陷的刺突蛋白。

真正的SARS-CoV-2以尖刻的Spike出现。在那种情况下,疫苗效果不佳。

那么该怎么办?在2017年,有人描述了如何在正确的位置放置双重脯氨酸替代品,使SARS-CoV-1和MERSS蛋白即使不属于整个病毒的一部分,也能占据其“融合前”构型。这是有效的,因为脯氨酸是一种非常刚性的氨基酸。它起到夹板的作用,将蛋白质稳定在我们需要向免疫系统展示的状态。

发现这一点的人们应该不断地四处走动。他们应该散发出难以忍受的自鸣得意。这一切都是当之无愧的。

(实际上,许多科学家都非常谦虚-如果我做了如此重要的发现,我简直不知道该如何应对!)

如果滚动浏览其余的源代码,则在Spike蛋白的末尾会遇到一些小的修改:

V L K G V K L H Y T s病毒:GUG CUC AAA GGA GUC AAA UUA CAU UAC ACA UAAV疫苗:GUG CUG AAG GGC GUG AAA CUG CAC UAC ACA UGA UGA V L K G V K L H Y T s! ! ! ! ! ! ! !

在蛋白质的末端,我们找到了一个“终止”密码子,在这里用小写字母表示。这是一种礼貌的说法,该蛋白质应在此处结束。原始病毒使用UAA终止密码子,疫苗使用两个UGA终止密码子,也许只是出于很好的考虑。

就像核糖体在5'末端需要一些导入一样,我们发现了“五个主要非翻译区”,在蛋白质的末端我们发现了一个类似的结构称为3'UTR。

关于3'UTR,可以写很多话,但在这里我引用维基百科的话:“尽管我们目前有3,但3'非翻译区通过影响mRNA的定位,稳定性,输出和翻译效率在基因表达中起着至关重要的作用。对3'-UTR的理解,它们仍然是相对的奥秘”。

我们所知道的是某些3'-UTR在促进蛋白质表达方面非常成功。根据WHO的文件,BioNTech / Pfizervaccine 3'-UTR选自“分裂(AES)mRNA的氨基末端增强子和线粒体编码的12S核糖体RNA,以赋予RNA稳定性和高总蛋白表达”。我要说的很好。

mRNA的最末端是聚腺苷酸化的。这是一种奇特的说法,它适用于许多AAAAAAAAAAAAAAAAAAA。甚至mRNA都已经出现到2020年。

mRNA可以重复使用很多次,但是在这种情况下,它最后也会丢失一些A。一旦A用完,mRNA将不再起作用,并被丢弃。这样,“ poly-A”的尾巴就可以防止降解。

已经进行了研究以找出对于mRNA疫苗而言,最合适的A数量是多少。我在公开文献中读到,这个峰值达到120左右。

这是30 A,然后是“ 10核苷酸接头”(GCAUAUGACU),其后是70A。 我怀疑我们在这里看到的是进一步专有优化以进一步增强蛋白质表达的结果。 有了这些,我们现在知道了BNT162b2疫苗的确切mRNA含量,对于大多数部分,我们都知道它们为什么存在: 经过密码子优化的信号肽,可将Spike蛋白发送到正确的位置(从原始病毒中复制100%) 原始加标的密码子优化版本,带有两个“脯氨酸”替代物,以确保蛋白质以正确的形式出现 密码子优化为mRNA增加了许多G和C。 同时,使用Ψ(1-甲基-3′-伪古ridylyl)代替U有助于逃避我们的免疫系统,因此mRNA停留时间足够长,因此我们实际上可以帮助训练免疫系统。