广告

ENCODE:人类基因组速查指南

人类基因组计划奠定了理解DNA的基础,而ENCODE项目揭示了DNA的功能性元件。

作者:Ed Yong
Google NewsGoogle News Preferred Source
ENCODE

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

早在2001年,人类基因组计划就为我们提供了近乎完整的人类DNA序列。不可思议的是,这些A、G、C、T序列包含了制造一个完整人类的所有指令,但它们并非简单的蓝图或食谱。基因组是存在的,但我们对它是如何被使用、控制或组织的知之甚少,更不用说它如何造就了一个活生生的人。

广告

这个认知上的差距已经缩小了一点。一项名为ENCODE(DNA元件百科全书)的庞大国际项目,让我们从“这是基因组”迈向了“这是基因组的功能”。在过去的10年里,一个由442名科学家组成的国际团队,通过24种实验方法,对147种不同类型的细胞进行了研究。他们的目标是:对基因组中每一个有功能的字母(核苷酸)进行编目。研究结果今天发表在三个不同期刊的30篇论文以及更多文章中。

多年来,我们一直知道基因组中只有1.5%的DNA含有制造蛋白质的指令,而蛋白质是我们细胞的分子“主力军”。但ENCODE项目表明,基因组的其余部分——非编码的大部分——仍然充满了“功能性元件”。也就是说,它在“做某事”。

它包含蛋白质可以附着并开启或关闭基因的结合位点。或者它被读取并“转录”成RNA分子。或者它控制附近基因是否被转录(启动子;超过70,000个)。或者它影响其他基因的活性,有时是跨越很远的距离(增强子;超过400,000个)。或者它影响DNA的折叠和包装方式。总之,它在“做某事”。

根据ENCODE的分析,80%的基因组具有“生化功能”。具体这意味着什么将在后面详述,但关键点是:它不是“垃圾”。科学家们早已认识到,一些非编码DNA具有功能,并且越来越多的确凿例子已经出现 [为清晰起见编辑 – 编辑]。*但是*,许多人仍然认为这些序列中的很大一部分确实是垃圾。ENCODE对此持不同意见。“几乎每一个核苷酸都与某种形式的功能相关,现在我们知道它们在哪里,什么会与之结合,它们的关联是什么,等等,”研究的资深科学家之一Tom Gingeras说。

至于剩下的20%呢?项目首席分析协调员、自称“首席驯猫员”的Ewan Birney认为,它们可能也不是垃圾。他解释说,ENCODE只研究了147种细胞类型,而人体有数千种细胞。基因组的某个特定部分可能在一个细胞类型中控制一个基因,但在其他细胞类型中则不然。如果包含所有细胞,那么“幽灵比例”的功能就可能会显现出来。“很可能80%会达到100%,”Birney说。“我们并没有真正大块的冗余DNA。‘垃圾’这个比喻并没有太大用处。”

基因组的复杂性对科学家来说并不意外,但ENCODE做了两件新事情:它为科学家们提供了DNA元件的目录供其深入研究;并且它揭示了这些元件的*数量之多*。“基因组不再是一片空旷的荒野——它密集地充满了生化活动的峰值和波动,”新加坡基因组研究所的Shyam Prabhakar说。“这里每个人都能找到有用的东西。无论我们在任何特定项目中研究基因组的哪个部分,我们都能从查看相应的ENCODE轨道中获益。”

其影响深远,从重新定义“基因”是什么,到为疾病研究提供新线索,再到拼凑基因组的三维工作方式。“它从根本上改变了我对我们基因组的看法。那里就像一片丛林。充满了各种在活动的物质,”Birney说。“你看着它,然后会想:‘这是怎么回事?真的需要制造所有这些RNA片段吗?它充满了活动,但却很难找到其中的逻辑。”

可以将人类基因组想象成一座城市。基本的布局、最高的建筑和最著名的景点从远处就能看到。这就是我们2001年达到的水平。现在,我们已经放大了。我们可以看到让这座城市运转起来的各种角色:维护建筑的清洁工和保安,连接远处的下水道和电力线,监管其他事务的警察和政客。这就是我们现在的状态:一个动态、变化的实体的全面三维肖像,而不是一个静态的二维地图。

正如伦敦不等于纽约,不同类型的细胞依赖于不同的DNA元件。例如,在蛋白质附着DNA的大约300万个位点中,只有3,700个在检查过的所有细胞中被普遍使用。肝细胞、皮肤细胞、神经元、胚胎干细胞……它们都使用不同的开关组合来控制各自的生命。同样,我们早就知道会是这样。关键在于其规模和全面性。

广告

“这是一个重要的里程碑,”哈佛医学院的遗传学家George Church说。他唯一不满的是,ENCODE使用的细胞系来自不同的人,因此很难确定细胞之间的差异是普遍存在的差异,还是仅仅反映了它们主人本身的遗传特征。Birney解释说,在其他研究中,细胞之间的差异大于人与人之间的差异,但Church仍然希望看到ENCODE的分析能够用来自一小群健康和患病人群的几种细胞类型进行重复。他认为这应该是可行的,因为“其中一些[检测]的成本已经下降了数百万倍”。

下一阶段是找出这些角色是如何相互作用的。那80%的DNA(如果真的有)在做什么?如果它在做某事,那么它在做*重要*的事情吗?它是否改变了我们身体的某个部分,或者我们的疾病风险?如果它发生了变化,进化会关心吗?

广告

[更新 07/09 23:00 事实上,对许多科学家来说,这些才是重要的问题,而ENCODE通过对“功能性”的宽泛定义回避了这些问题。批评者说,这严重削弱了其关于发现一个充满活力的基因组的说法。ENCODE的大多数“功能性元件”不过是转录成RNA的序列,而几乎没有考虑它们的生理或进化重要性。其中包括自我无限复制的遗传寄生虫的重复遗迹,已死亡且曾经有用的基因的残骸,等等。

将所有此类序列都纳入“功能性”的范畴,设置了一个非常低的门槛。霍华德休斯医学研究所的Michael Eisen表示,ENCODE的定义是“功能重要性的无意义衡量标准”,而普林斯顿大学的Leonid Kruglyak指出,这“比说一个序列被复制(它们都会被复制)更有意思”。更简单地说:我们的基因组城市里有很多新来的参与者,但他们很可能都是无业游民。

这场争论不太可能很快平息,尽管ENCODE对“垃圾”DNA结论的一些最严厉批评者仍然赞扬了它作为基因组零件清单的性质。例如,圭尔夫大学的T. Ryan Gregory对比了他们关于垃圾DNA的讨论与1972年的一篇经典论文,并得出结论认为它们“远不如几十年前的文献那样复杂”。但他同时也表示,ENCODE提供了“我们见过的最详细的基因组元件概述,并且肯定会在未来许多年里引发大量有趣的研究”。而圣路易斯华盛顿大学的Michael White表示,该项目作为一个大型联盟,实现了“令人印象深刻的一致性和质量”。他补充说,“无论你怎么看待ENCODE的想法,你都不能说ENCODE的执行很差。**]**

它将把我们引向何方?很容易被冲昏头脑,而ENCODE的科学家们似乎对人类基因组项目曾经经历过的炒作-反弹的循环心存警惕。无论是媒体还是参与其中的科学家,在人类基因组项目公布时都曾许下很多承诺,包括医学上的突破和对人类更清晰的理解。ENCODE团队则更加谨慎。“这个想法会带来新的癌症治疗方法或提供以前未知的答案,至少在某种程度上是正确的,”Gingeras说,“但它在多大程度上能够成功解决这些问题,则不得而知。

广告

“我们是我们所知的最复杂的东西。生物体的说明书如此庞大不足为奇,”Birney说。“我认为需要用整个这个世纪来填补所有的细节。这种完整的协调将是这个世纪的科学。”

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章