经过二十年的改进,目前的人类参考基因组(GRCh38)是有史以来产生的最准确和最完整的脊椎动物基因组。然而,没有一个染色体首尾相连,数百个未解决的缺口仍然存在1,2。在这里,我们提出了一种从头开始的人类基因组组装,它超过了GRCH38-2的连续性,以及第一个无间隙的人类染色体的端粒到端粒组装。这是由于对完整的葡萄胎CHM13基因组进行了高覆盖、超长阅读的纳米孔测序,并结合了用于质量改进和验证的补充技术。我们以人类X染色体3为研究重点,重建了31兆碱基的着丝粒卫星DNA阵列,填补了现有文献中剩余的29个空白,其中包括来自人类假常染色体区域和肿瘤-睾丸扩增基因家族(CT-X和GAGE)的新序列。这些新的序列将被整合到未来的人类参考基因组版本中。此外,完整的X染色体,结合超长的纳米孔数据,使我们能够首次绘制复杂串联重复序列和卫星阵列之间的甲基化模式。我们的结果表明,完成整个人类基因组现在是触手可及的,这里提供的数据将使正在进行的完成剩余人类染色体的努力成为可能。
作者。
本文件包含补充注释1-8,它详细介绍了正文中的分析,补充表1提供了基因组注释结果,补充表2提供了倒位调用,补充表3提供了NCBI中所有人类基因组组装的描述,重叠群NG50>;25Mb或起源于CHM13;补充表4提供了DXZ1阵列估计,补充表5列出了由BioNano光学图谱确定的结构变体,以及额外的参考文献(参见内容以了解更多细节)。
提交评论即表示您同意遵守我们的条款和社区指南。如果您发现一些滥用或不符合我们的条款或指导方针,请标记为不适当。