现代科学的伟大成就之一是绘制人类基因组的蓝图,以测定人类 DNA 中基因的序列。该项目以前所未有的深度揭示了基因的功能、它们在人类健康中的作用以及生命本身的本质。
然而,人类基因组项目仅仅是开始。掌握了 DNA 基因序列的生命科学家们现在希望了解生命中极其丰富的复杂性是如何从这段代码中产生的。
同样令人费解但又紧密相关的问题是,基因组中的微小变化如何导致了人类生命丰富的画卷,其中包含无限多样的面孔、种族和对某些疾病的易感性。
如今,美国及其他地区 120 多个实验室的科学家们已携手合作,寻求答案。该组织名为“基因组变异对功能的影响联盟”(Impact of Genomic Variation on Function Consortium),其目标是了解基因组变异如何影响其功能,进而影响由此产生的人类的表型。
该项目有潜力彻底改变科学家对生命的理解以及基因在疾病中的作用。“要解锁这些见解,我们需要一个系统且全面的基因组功能目录,以及基因组变异的分子和细胞效应,”团队表示。
严峻的挑战
这项任务的规模巨大。人类基因组项目揭示了大约 25,000 个基因。但任何时候,只有一小部分基因会在特定的组织中被激活。这种遗传调控如何完美同步地工作,是一个极其重要的问题。
科学家们知道,每个基因都编码一种特定的蛋白质。换句话说,它是 DNA 的一个片段,可以被转录成 RNA,然后翻译成蛋白质。这些蛋白质是所有细胞和生命分子机器的基石。但是,转录一个基因并非易事。
基因组的每个副本——几乎每个细胞都有自己的副本——包含约 30 亿个碱基对,沿着著名的双螺旋结构排列。如果将这条 DNA 链拉直,可以伸展到约 2 米长。
但是,它却紧密地封装在细胞内,必须解开才能访问其携带的基因。这种包装和解包是高度协调的。DNA 链首先缠绕在称为组蛋白的分子“棉线卷”上,然后这些组蛋白紧密地编织在一起形成称为染色质的“DNA 绳”。这本身又会来回折叠成称为染色体的形状。
要访问一个基因,必须以揭示该基因精确位置的方式解开染色质,然后再次将其重新打包。
所有这一切都由协同工作的复杂分子网络管理。人类基因组项目的伟大发现之一是,DNA 不仅编码蛋白质。它还包含许多不编码蛋白质的 RNA 链基因。
这种非编码 RNA 在一个复杂的运作网络中协调生命过程——开关、引导、结合等等——以控制这个巨大的分子构建芭蕾。
鉴于对生命过程的这一瞥见,科学家们现在希望了解这一切是如何运作的;这基本上就是“基因组变异对功能的影响联盟”的目标。
他们已经知道,基因组中的单个变化会导致个体之间存在显著差异,例如在对某些疾病的易感性方面。但要弄清楚每个单核苷酸变异的作用并非易事,尤其是因为许多表型特征是许多核苷酸变异组合的结果。即使科学家们意识到了个体之间的变异,其意义也并非总是清晰的。
瓶颈
这使得确定基因在许多疾病中的作用或如何修复它们变得困难。“目前,解读基因组变异对功能的影响是实现精准医疗承诺的瓶颈,”该团队表示。
因此,“基因组变异对功能的影响”项目旨在创建一个地图,预测每种可能的单核苷酸变异对基因组功能的关键方面的影响。这意味着要弄清楚编码变异如何改变蛋白质的形状和功能,非编码变异如何影响基因表达,以及这些如何共同影响整个细胞内的分子网络。
鉴于基因组有 30 亿个核苷酸,在所有细胞、所有情况下,无法通过实验测量每个位置变异的影响。可能性的组合是惊人的巨大。
因此,科学家们将尝试测量许多变异的影响,但计算机建模需要承担预测许多其他变异影响的重任。“构建基因组功能准确模型所需的数据量尚不清楚,要完全实现绘制基因组变异对功能影响的地图这一目标,还需要在实验和计算方法上取得进一步进展,”团队表示。
这就是 IGVF 联盟如此庞大的原因——所需技能涵盖了整个生命科学领域,并延伸到生物信息学和计算机科学。
这是一个雄心勃勃的目标,对我们理解人类健康,特别是遗传变异在疾病中的作用具有深远的影响。未来几年,这项研究的成果值得关注。
参考:基因组变异对功能的影响 (IGVF) 联盟:arxiv.org/abs/2307.13708














