广告

我们是否能……仅凭 DNA 就完全解析一种生命形式?

人类基因组计划揭示了 DNA 的复杂性,但解释遗传信息以预测性状仍然是一个挑战。

作者:Ed Yong
Google NewsGoogle News Preferred Source

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

广告

这是我 BBC 专栏的第 12 篇。我的 BBC 专栏

2001 年,人类基因组计划

为我们提供了近乎完整的 30 亿个 DNA 字母的草图。我们加入了一个拥有基因组序列的精英物种俱乐部,这个俱乐部随着每个月过去都在不断壮大。这些基因组包含了构建各自拥有者的必要信息,但这些信息我们仍然难以解析。迄今为止,没有人能够读取一个生物体基因中的密码并预测其形态、行为、发育、生理——即所谓的 表型

的所有细节。然而,这些细节的基础就摆在那里,全部包含在 A、C、G 和 T 的片段中。“细胞 pretty reliably 知道如何做到这一点,”普林斯顿大学的 Leonid Kruglyak

说。“每次你得到一个鸡的基因组,你就会得到一只鸡;每次你得到一个大象的基因组,你就会得到一只大象。”随着我们的技术和理解的进步,我们最终能否通过一堆原始的 DNA 序列来洞察属于它的生物体的所有运作机制?就像物理学家可以利用力学定律来预测物体的运动一样,生物学家能否利用遗传学和分子生物学的基本原理,仅根据基因来预测身体的性状和缺陷?我们能否将一个基因组放入一个黑匣子,然后打印出一个人?或者一只苍蝇?或者一只老鼠?这可不容易。在复杂的生物体中,有些性状可以追溯到特定的基因。例如,如果你看到 MC1R 基因的一个特定变体,那么你面前的很有可能是一个哺乳动物,而且它有红色的毛发。事实上,人们曾因此预测一些尼安德特人是红头发的。“但除此之外,预测 [某个东西] 是老鼠、鲸鱼还是犰狳,我们仍然做不好,”Kruglyak 说。加州大学圣地亚哥分校的 Bernhard Palsson

也同意。“测序猛犸象的基因组无法预测其特性,”他说。“但对于细菌,你可能会做得好得多。”对于更简单、更小的基因组,理论上应该更容易预测其代谢的基本特征,或者它们是否使用氧气生长。即使我们可以在一天内为细菌基因组测序,而且成本仅为 50 英镑,我们仍然难以确定重要的性状,例如 致病微生物感染宿主的能力有多强

。即使是寻找一个小基因组中的所有基因也很困难。今年早些时候,科学家们在一个 流感病毒

中发现了一个新基因,该病毒的基因组仅包含 14,000 个字母(足够放入 100 条推文),并且已经被反复测序。我们的基因组拥有 30 亿个字母,里面充满了 错误和空白

,尽管表面上是“完整的”,这应该不足为奇。五月,另一组研究表明,参考人类基因组中缺失了一个可能塑造了我们大脑进化的基因

广告

。“即使是基因本身,也没有一个基因组被完全理解,”斯坦福大学的 Markus Covert

说。“通常,四分之一到五分之一的基因的功能是未知的。”基因编码了组装蛋白质的指令,蛋白质是我们细胞中执行重要工作的分子机器。蛋白质是由氨基酸组成的很长的链,我们可以精确地预测这条链。但这条链还会像折纸一样折叠成复杂的 3D 形状,而这个形状决定了蛋白质所做的一切,从它加速的化学反应到它与其他分子结合。弄清楚这些形状是艰苦的工作,涉及到生长纯蛋白质晶体,并用 X 射线轰击它们。尽管有数百种这样的结构,即使是最强大的计算机也很难根据产生它们的 DNA 序列准确计算出蛋白质的形状。“我认为这个挑战是令人窒息的,”Palsson 说。蛋白质编码基因仅占我们基因组的 1.5%。其余的包含了很多被认为是无用的“垃圾”,没有可识别的功能。但它也包含调控序列,控制着我们的基因何时、何地以及如何使用。如果我们想预测一个基因组如何产生一个活生生的、会呼吸的生物体,我们就需要识别出这些。实现这一目标的技术正在开发中,ENCODE 项目

广告

——DNA 元素百科全书——已经充分利用了这一点,汇编了我们基因组中各种调控序列的目录。但 ENCODE 项目涉及 442 名科学家进行了十年的密集实验,即使是其前所未有的目录也不完整。即使我们拥有所有这些信息——每个基因、蛋白质结构和调控序列——我们仍然需要弄清楚它们是如何协同工作的,以及它们如何与环境相互作用。我们需要模式:生物体发育过程中不同基因的激活时间和地点。我们需要时序:细胞中的化学反应发生的速度有多快,以及蛋白质如何加速这个过程。在这里,我们的比喻失灵了。科学作家喜欢将基因组比作教科书或蓝图。这传达了它存储信息的事实,但忽略了它嗡嗡作响、动态的本质——蛋白质的结合与分离来控制基因的活性,大段 DNA 的折叠与展开来显示或隐藏它们的序列,寄生的跳跃基因复制自身并跳跃到整个基因组……我们没有任何信息存储——无论是乐谱还是食谱——像这样复杂。这并没有阻止一些科学家尝试模拟这种复杂性。七月,Covert 宣布他已经创建了一个完整生物体的粗略模拟

——一种名为 月经支原体 (Mycoplasma genitalium)

的单细胞微生物。Covert 的模型模拟了该细菌 525 个基因的利用方式、它们产生的蛋白质、蛋白质的作用速度、它们的相互作用等等。它并不完全准确,但它捕捉了M.genitalium 生活方式的很大一部分。两位同事写道,该项目“仅凭其大胆就应受到赞扬

”。尽管如此,模拟仍然是来之不易的。与 525 个基因相比,M.genitalium 拥有病毒以外最小的基因组(相比之下,人类有 20,000-25,000 个基因),它作为寄生虫被极简化了。它可能是我们可以想象的最简单的生命之一,但建模这种微生物仍然需要大约 1,900 次实验和大量的借鉴知识。“我们的模型大约一半来自其他细菌进行的实验,”Covert 说。“[基因组]本身绝对不可能具有预测性。”Covert 还需要考虑M.genitalium 的环境。它只生活在我们尿道稳定的环境中,没有光照,温度恒定。“但即便如此,它偶尔也会看到免疫系统在追捕它,而我们无法模拟这一点,”Covert 说。对于更复杂的自由活动的生物体来说,环境的影响变得更加关键。温度和酸度会影响蛋白质的行为。生物体摄取的食物、困扰它的感染以及它与之互动的竞争者,都会影响其发育及其基因的使用方式。其中许多因素会在基因组本身留下痕迹——“表观遗传”标签,它们决定了基因的部署,并可以传递给下一代。环境显然很重要。在从基因组进行预测时,房间里的大象就是这个房间本身。不过,Covert 的方法展示了一种前进的道路——虚拟生物学的黎明。你可以测序一个基因组,构建一个模型或模拟,将其与真实生物体进行比较,找出模型中的缺陷,并通过进一步的实验来纠正这些缺陷。重复这个过程。最终,你将拥有一个模型动物园。如果你有一个新的基因组,可以先将其与现有模拟之一进行比较,然后从中着手。这并不完全是我们设想的黑匣子,但它已经不错了。如果科学家们正在寻找能够执行特定任务的真菌或细菌——例如,清理有害废物、产生某些营养物质——那么仅凭它们的基因组来识别这些生物将会很有价值。“我们可以利用测序来寻找与我们目标相关的表型,”Nielsen 说。如果目标是人工设计新的生命形式

广告

,就像 Craig Venter 那样的人正在尝试的那样,那么预测就变得至关重要,而不是一厢情愿。“你会担心副作用,你想要一种可以避免它们的计算工具,”Covert 说。“当我们谈论合理设计一个新生物体时,你会想预测其表型。”瑞典查尔姆斯理工大学的 Jens Nielsen

说:“我怀疑我们是否能达到 100% 的预测能力,因为生物学是如此多变。”但 Kruglyak 补充说:“我认为原则上没有什么障碍会让它不可能。这只需要大量额外的工作和持续的技术发展,超出现有的能力。”更多来自“我们是否会……?”系列:

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章