当人类基因组首次被认为是“完整”2000年时,新闻与伟大的国际粉丝达成了。两位竞争团体争夺基因组第一 - 一个大型政府主导的联盟,另一家私人公司 - 同意宣布联合成功。他们在白宫握手。比尔克林顿主持。托尼布莱尔在伦敦横梁。 “我们在科学历史上的一个非凡时刻,”当那些基因组出版时,一个着名的科学家宣布。 “就好像我们已经爬到了喜马拉雅山的顶端。”
但实际上,人类基因组未完成。既不达到真正的峰会。常如当代覆盖范围承认,该版本更像是粗略的草稿,用长长的延伸地缠绕,DNA序列仍然模糊或缺失。私营公司很快旋转并结束了人类基因组项目,虽然具有公共财团士兵的科学家。 2003年,随着呼吸较少但仍有大量的头条新闻,人类基因组再次宣布完成。
但实际上,人类基因组仍然没有完成。即使修订后的草案也缺少约8%的基因组。这些是最难的序列区域,充满了重复的字母,这是当时的技术无法阅读。
最后,这可能是一群独立的科学家悄悄地发布了一篇在线上面描述了可以被认为是第一个真正完善的人类基因组-A-A读出23例人类染色体的所有305.5亿字母。由相对年轻的研究人员领导的小组聚集在一起,从世界各地闲逛,完成20年前遗弃的任务。这次没有泼白房子宣布,没有谈论喜马拉雅山的总结;本文本身仍在审查日志中的官方出版物。但缺乏庞培的屏蔽这是一项成就:为了完成人类的基因组,这些科学家必须弄清楚如何弄清楚最神秘和忽视的重复地区,这现在最终可能会得到他们的科学。
“我认为这是一个地标,”弗雷德·哈钦森癌症研究中心的分子生物学家史蒂文·亨尼克说,他没有参与该项目。 Henikoff研究其中一个神秘的难以序列地区,其中以前的人类基因组项目已经放弃了:Centromeres,这是每种染色体的略微夹持的中间。染色体,其中人有23对,每个都包括长,连续的DNA,可以冷凝成杆状; Centromere的DNA特别密集。
在五个人体染色体上,Centromere不在中间,但非常接近一端,将染色体分成一个长而一个非常短的臂。这些短臂也充满了从未完全测序的重复。 Centromeres,短武器和其他类型的重复区域组成了大部分的2.38亿字母,该联盟最终添加或纠正在人类基因组中。
人类基因组的重复含量通常不会含有基因,这是他们长期被忽视的一个原因。遗传学家在很大程度上集中在基因上,因为它们的功能是显而易见和简单的:基因编码蛋白质。 (人类基因组的早期草案的一个大惊喜是我们的DNA实际编码蛋白质的少点 - 只有1%。剩下的99%的作用变得更加清晰。)确实,有暗示这些重复的地区还在基因所表达和传递的基因中发挥重要作用,而他们的异常与癌症和老化有关。联盟发现了79个在重复中隐藏的新基因。通过终于在手中的地图上,科学家可以更仔细地探测它们的功能。
完成基因组的努力是“完全基层”,国立卫生研究院的计算遗传主义者,他们共同领导地端身致拓(T2T)联盟完成了基因组。 (端粒体是染色体末端的区域,所以端粒为Telometere意味着“结束结束”。)Phillippy和Karen MIGA,UC Santa Cruz的遗传手,决定在2018年在他们意识到这一点后在2018年创建联盟他们都有题为结束人类基因组的野心。
“我爱上了重复,”米格娜说,作为一名生物学家试图了解那些重复的人。腓利菲,一位计算机科学家通过培训,带来了技术性的作弊。传统的测序技术片段DNA成小块,计算机算法必须像拼图一样重新组装它们。问题是,来自重复区域的碎片都看起来几乎相同。现在两个新的“长读”测序技术 - 叫做Pacbio Hifi和牛津纳米奥波尔 - 允许科学家们阅读更长的基因组。这些定序器仍然无法处理足够大的块以越过整个CENTROMERE或短臂,但至少算法具有更大的拼图组装。
Centromere序列的作用,如许多其他重复区域,尚未完全理解,但它们是最被称为细胞分裂的关键。当一个细胞分为两个时,蛋白质主轴附着在焦点上时,将染色体分开,以确保每个细胞都获得正确的数量。当鸡蛋或精子中出现问题时,婴儿可以生出染色体异常,如唐氏综合征或旋转综合征。当它在身体的其他部位出现问题时,我们可以最终血细胞,例如,染色体过多或太少。这是老龄化的标志:70岁以上的男性对其血细胞中的y染色体失去了不寻常。在与完整基因组共同上传的两个伴随文件中,T2T联盟表明,牛津纳米孔的长读技术也可用于映射蛋白质主轴附着在厘米上的位置。检查这些区域中的序列可能会产生新的染色体异常线索。
染色体的重复的富有的短臂类似地是神秘的。它们绝对在将基因转化为蛋白质的细胞机制中发挥了一些作用,并且了解它们的序列可以在该功能上流动更多光。 Brian McStay是戈尔韦国立大学的生物学家,将完整的基因组比对染色体的“零件清单”并将科学家们逐一尝试取出建筑物的“零件清单”。 “知道这个零件清单是什么,我们可以说,'这正是我们的染色体看起来像什么'”McStay说。 “'让我们删除它,看看对该染色体功能的影响是什么。'”
令人印象深刻的是测序完整的人类基因组的技术壮举是,科学家告诉我,一个基因组只是一个快照。看到这些重复区域如何随着时间的推移而变化,物种对物种,将更有趣。 “癌症发生了什么?发展中发生了什么?如果将后代与父母比较会发生什么?“亨基夫说。该联盟证明,这些重复区域与新的长读技术一起排序。现在他们可以应用于更多基因组,让科学家与另一个人一起比较一个。
事实上,MIGA说,最终的梦想是让科学家试图从端到端完成序列的每个基因组,端子才能端身。但首先,该集团的目标是更直接的目标。如果你想用新的基因组没有“完成”,你可以指出它只有单一组23染色体,而正常人体细胞有23对。为了简化任务,本组使用来自特定类型的肿瘤的细胞,从异常受精卵产生并最终用23个单一染色体。该团队将不得不使用不同的细胞,23对染色体,完成所谓的“二倍体”基因组。
“下一个主要的里程碑将是常规的二倍体基因组,”哥本哈根大学遗传学家的吉尔帕卡格说,丹麦。 Garg已经使用Pacbio Hifi快速组装人类基因组 - 减去一些棘手的区域,例如焦化区域 - 以每天少数速度。通过使医生更容易使用基因组测序更容易诊断患者,这种速度也有助于临床环境。 (相比之下,她说,从较旧的测序技术组装种植体,只要三个星期即可服用。)真正完善的基因组测序,重复区域和所有,都变得更加容易和更快。很快,另一个完整的人类基因组根本不会成为新闻。