DNA可能成为未来数据存储的解决方案

20世纪90年代末，遗传学家开始研究已灭绝物种的DNA，分析保存在冰冻苔原中的毛发和骨骼。那时，大多数计算机使用软盘存储数据，容量只有1.44兆字节——比一张普通自拍还小。如今，这些软盘也可能已经成为冰河时代的遗物。不仅其存储容量在当今标准下微不足道，而且由于材料降解和读取所需专用设备，恢复其数据几乎是不可能的。

软盘体现了计算机科学面临的一些最严峻的长期挑战。据微软首席研究员Karin Strauss称，随着电子设备在我们生活中扮演越来越重要的角色，未来的存储需要指数级增长的密度来容纳我们产生的数据。此外，长期存档将依赖于以一种可读格式保存数据，并且存储介质不易降解。

解决这些挑战的答案可能就存在于你、我以及遗传学家多年前研究过的那些史前巨兽身上。“DNA可以保存很长时间，”Strauss说，她同时也是华盛顿大学的教授。此外，它还能在极小的空间内存储大量信息：一只猛犸象的所有遗传指令都包含在一个单分子中。根据Strauss的计算，一个完整的数据中心将不超过几块糖的大小。而且，由于它是地球上所有生命所使用的编码，“我们将永远能够读取它，”她说。

DNA数据存储的想法比微软和软盘还要早，如果说比猛犸象不早的话。DNA是一种扭曲的梯子，其横档由四种不同的基底构成，它们成对连接以固定梯子。这些基底的顺序，称为碱基，为生物体提供了组装指令。在20世纪60年代末，科学家们意识到，如果研究人员能够控制碱基的顺序，并且机器能够读取这种顺序，DNA就可以承载其他信息。得益于基因组测序和基因工程的进步，在过去几十年里，这些过程终于变得高效起来。

计算机也已经进化得更加强大。即便如此，没有人知道如何有效地从DNA中检索精确的数据片段。“这项任务并不简单，”微软与Strauss合作的研究项目的负责人、华盛顿大学计算机科学家Luis Ceze说。

今年，在微软和华盛顿大学的联合努力下，Strauss、Ceze及其同事展示了DNA如何支持未来的数据中心。该团队结合了将数据编码和解码为DNA的软件，以及生产遗传物质并为其准备好被软件读取的机器。通过该系统，他们成功地存储和检索了单词“hello”。整个过程耗时21小时，但至关重要的是，它是完全自主的。“要使DNA存储实用化，我们需要将人类排除在循环之外，”Strauss说。她的机器人是全新计算技术类别的第一个概念验证。

尽管如此，一些科学家质疑DNA是否是这项工作的最佳分子。“天然DNA的结构是经过……40亿年达尔文进化形成的，”应用分子进化基金会杰出研究员Steven Benner评论道。在这段时间里，DNA积累了大量的进化“包袱”，这些包袱会阻碍计算机的平稳运行，例如碱基对行为的物理差异。为了解决这个问题，Benner最近开发了四种人工碱基，它们的工作原理类似于DNA的碱基，但没有那些遗传差异。

Strauss坦然承认了这些“包袱”以及Benner的碱基的长期潜力。但她指出，这数十亿年的进化已经提供了一个良好的起点。同样重要的是，她提到，庞大的生物技术产业正在开发能够帮助DNA存储技术从实验室走向数据中心的设备。“我认为DNA是分子信息技术最佳的初始选择，”她说。

[本文最初以“大自然的跳跃驱动器”为题印刷出版。]