科学家首次实现人类X染色体的完全组装

2020-07-15 05:03:59

虽然目前的人类参考基因组是有史以来产生的最准确和最完整的脊椎动物基因组,但即使经过20年的改进,DNA序列仍然存在空白。现在,科学家首次确定了人类染色体从一端到另一端(端粒到端粒)的完整序列,没有缝隙,准确度也达到了前所未有的水平。7月14日在“自然”杂志上发表的完整人类X染色体的端粒到端粒组装对基因组研究人员来说是一项里程碑式的成就。该项目的主要作者、加州大学圣克鲁斯分校基因组研究所的研究科学家卡伦·米加(Karen Miga)表示,该项目是由新的测序技术实现的,这些技术能够进行超长阅读,比如加州大学圣克鲁斯分校首创的纳米孔测序技术。

重复的DNA序列在世界各地很常见,而且一直给测序带来挑战,因为大多数技术产生的序列读数都相对较短,然后必须像拼图游戏一样拼凑起来,才能组装基因组。重复的序列产生了许多看起来几乎相同的短读数,就像拼图中的一大片蓝天,没有任何线索表明这些片段是如何拼接在一起的,或者有多少重复。

米加说,这些富含重复序列的序列曾经被认为很难处理,但现在我们在测序技术上取得了突飞猛进的进展。通过纳米孔测序,我们可以获得跨越整个重复区域的数十万个碱基对的超长读数,从而绕过了一些挑战。

填补人类基因组序列中剩余的空白打开了基因组的新区域,研究人员可以在这些区域搜索序列变异和疾病之间的联系,以及寻找关于人类生物学和进化的重要问题的其他线索。

米加说:“我们开始发现,这些在参考序列中有差距的区域实际上是人类群体中变异最丰富的区域之一,所以我们错过了许多可能对理解人类生物学和疾病很重要的信息。”(这句话的意思是:“我们已经开始发现,参考序列中有一些空白的区域实际上是人类群体中变异最丰富的区域,所以我们错过了很多对理解人类生物学和疾病可能很重要的信息。”

MIGA和国家人类基因组研究所(NHGRI)的亚当·菲利皮(Adam Phillippy)都是这篇新论文的通讯作者,他们共同创立了端粒到端粒(T2T)联盟,以寻求完整的基因组组装,此前他们在2018年的一篇论文中合作,证明了纳米孔技术产生完整人类基因组序列的潜力。这项工作使用了牛津纳米孔技术的迷你离子测序仪,它通过检测单个DNA分子通过膜上一个微小的孔(纳米孔)时电流流动的变化来对DNA进行测序。

新的项目建立在这一努力的基础上,将纳米孔测序与PacBio和Illumina的其他测序技术以及BioNano Genology的光学地图相结合。使用这些技术,该团队生产出了在连续性、完整性和准确性方面超过所有先前人类基因组组合的全基因组组合,甚至在某些指标上超过了当前的人类参考基因组。

尽管如此,Miga说,序列中仍然有多个中断。为了完成X染色体,研究小组不得不手动解决序列中的几个缺口。用完全横跨重复序列的超长纳米孔读数解决了两个节段性复制,并将其唯一地锚定在两侧。剩下的断裂发生在着丝粒上,这是出了名的在每条染色体上都有重复DNA的困难区域。

在X染色体中,着丝粒包含一个跨越310万个碱基对的高度重复的DNA区域(碱基A、C、T和G在DNA双螺旋中形成对,并按其序列编码遗传信息)。该研究小组能够识别重复序列中的变异作为标记,他们用这些标记来对长读数进行比对,并将它们连接在一起,以跨越整个着丝粒。

对我来说,我们可以组合一个3兆数据库大小的串联重复的想法简直是令人兴奋。米加说:我们现在可以到达这些重复区域,覆盖数百万个以前被认为难以处理的碱基。

下一步是使用来自多种测序技术的数据进行打磨策略,以确保序列中每个碱基的准确性。

米加解释说,我们在三个不同的测序平台上使用了迭代过程来完善序列,并达到了高水平的准确性。唯一标记为超长读取提供了锚定系统,一旦您锚定读取,您就可以使用多个数据集来调用每个碱基。";

纳米孔测序,除了提供超长的读数外,还可以检测已被甲基化修饰的碱基,即不改变序列但对DNA结构和基因表达有重要影响的表观遗传学变化。通过绘制X染色体上的甲基化模式,研究小组能够证实之前的观察结果,并揭示着丝粒内甲基化模式中一些有趣的趋势。

新的人类基因组序列来自一种名为CHM13的人类细胞系,填补了目前被称为基因组参考联盟构建38(GRCh38)的参考基因组中的许多空白。

T2T联盟正在继续努力,以完成所有CHM13染色体。米加说:“这是一个开放的联盟,所以从很多方面来说,这是一个由社区推动的项目,很多人都投入了大量的时间和资源。”更多信息:Karen H.Miga等人,完整人类X染色体的端粒到端粒组装,“自然”(2020)。电话:10.1038/s41586-0202547-7