本文刊登于 2022 年 1 月/2 月刊的《Discover》杂志,标题为“完成人类蓝图”。订阅成为会员,即可无限制访问我们的数据库。
经过漫长的努力,科学家们终于宣布完成了人类基因组的完整测序——这是过去几十年中最雄心勃勃的研究项目之一。这个消息可能会让你产生似曾相识的感觉:人类基因组计划的科学家们早在 2003 年就宣布完成了人类基因组的测序。
然而,最初的努力存在一些明显的遗漏。相当一部分基因组仍然无法访问,当时的技术无法解析更复杂的 DNA 区域。尽管后续的工作取得了一些进展,但仍有大约 8% 的人类基因组之谜未解——直到今年,一个名为端粒到端粒 (T2T) 联盟的国际合作组织填补了这些空白。
加州大学圣克鲁兹分校的卫星 DNA 生物学家 Karen Miga 表示,许多这些棘手的区域包括大段的高度重复性 DNA 序列。尽管它们通常不编码蛋白质(身体的构成单元),但这些序列可能包含理解罕见遗传疾病的重要线索。这些区域也可能改变我们对人类生物学基本原理(如细胞分裂)的认知。
“我们对人类基因组的初步测序已经相当不错了,”美国国家人类基因组研究所所长、人类基因组计划成员 Eric Green 说。但当涉及到基因组更复杂的区域时,计算机和“我们在试管中做的一些化学小把戏,它们就受不了了。”
最初,科学家们使用了所谓的“鸟枪法测序”技术。它将较长的 DNA 序列分解成小的、重叠的片段,计算机算法有时难以将它们缝合在一起。如今,更先进的方法使遗传学家能够读取长度达数十万个碱基对(构成 DNA 的“字母”)的序列,甚至偶尔达到数百万个碱基对。Miga 说道,她曾协助领导了这项新项目,这使得他们能够“穿过并解析这些棘手的片段”。
这项由约 30 个机构的数十名科学家参与的努力,在 2021 年 5 月发布到预印本服务器 bioRxiv 的一系列论文中,最终完成了人类基因组序列。研究人员为基因组数据库增加了近 2 亿个碱基对,其中包括 115 个可能编码蛋白质的基因。
Miga 表示,这些新增内容为遗传学家提供了大量信息供其梳理。一些基因“可能具有我们甚至尚未想象到的、关于细胞功能的新作用”。
与此同时,仍有工作要做。首先,当前版本的基因组代表的是一个人。T2T 团队现在已经与华盛顿大学的人类泛基因组参考中心合并,他们正在努力向数据库添加更多多样的序列——因此,人类基因组可能还会有更多惊喜。















