突破 DNA 数据存储的理论极限 | Discover Magazine

根据马萨诸塞州弗雷明汉市的国际数据公司（International Data Corporation）提供的信息，到 2020 年，人类生成的数据量可能达到 44 万亿千兆字节。这相当于 6 座从地球延伸到月球的 128 吉字节 iPad Air 高塔。

要利用所有这些数据，就需要将其存储在某个地方，而 DNA 可能能够胜任这项任务。

现在，科学家们使用一种名为 DNA Fountain 的新策略，几乎达到了 DNA 的理论存储容量，并且仍然以零错误率恢复了数据。该研究的首席作者、哥伦比亚大学计算生物学家 Yaniv Erlich 表示，这项新技术的秘密在于它基本上将文件编码到 DNA 中，就像非常简单的数独谜题一样。

数据到 DNA

DNA 由称为核苷酸的分子链组成：腺嘌呤、胸腺嘧啶、胞嘧啶和鸟嘌呤，缩写为 A、T、C 和 G。就像墨水图案可以表示字母一样，核苷酸序列可以用来编码数据。

正如长毛猛犸象和尼安德特人化石的基因分析所揭示的那样，DNA 可以保存数千年——不像磁带，磁带可能在十年内就会降解。DNA 还紧凑且不需要任何电力进行存储，因此保存和运输它可能相对容易。

先前尝试将数据编码到 DNA 链中的方法仅达到了 DNA 存储理论最大容量的一半左右。此外，由于 DNA 合成过程中引入的错误，先前的工作经常出现检索数据的小间隔。但 Erlich 在开发 DNA Fountain 时借鉴了报纸的娱乐版。

网格

在数独中，玩家会得到大部分空白的网格，网格中的少数数字作为提示，指示其余的网格应该如何填写。DNA Fountain 以非常相似的方式生成关于文件内容的许多“提示”。所有这些数据都被编码到 DNA 中，当需要从这些分子中检索数据时，即使丢失了少量的“提示”和文件片段，其他的提示也可以帮助揭示丢失了什么数据，Erlich 说。

Erlich 和他的团队使用新技术将六个文件编码到 DNA 中

一个名为Kolibri的完整计算机操作系统。
一种被称为zip 炸弹的计算机病毒。
1895 年的法国电影《火车进站》，根据都市传说，这部电影以一列真人大小的火车移动影像吓坏了观众。
先驱者号行星探测器铭牌，复制了放置在先驱者号航天器上的金属板，旨在向任何可能接收到的外星智能传递信息。
1948 年，信息理论创始人克劳德·香农的著作《通信的数学理论》，该著作塑造了几乎所有存储、处理或传输数字信息的系统。
一张 50 美元的亚马逊礼品卡。

研究人员之所以包含操作系统、计算机病毒和电影，是因为“这些文件对错误非常敏感，我们想证明可以从中完美地检索数据，”Erlich 说。此外，“我们选择香农的手稿是因为它对我们的工作至关重要，选择先驱者号铭牌是因为它对人类至关重要。”

科学家们添加了亚马逊礼品卡，以鼓励其他人重现研究团队的工作。

“我们将 DNA 测序数据与一位对这项研究感兴趣的 Twitter 粉丝分享了，”Erlich 说。“我告诉他，如果他能解码数据，他就能拿到礼品卡，他很高兴地做到了，并买了一本好书。”

早期、早期技术

研究人员将这六个文件合并到一个大小略大于 2.1 兆字节的压缩文件中。然后，他们使用 DNA Fountain 将其编码成 72,000 条 DNA 链，这花费了两周时间进行合成。

为了读取文件，科学家们使用了 DNA 测序技术，然后使用软件将 DNA 序列翻译成二进制数据。他们以零错误率恢复了文件。

总而言之，这种新的编码策略可以将一克 DNA 存储近 215 PB 的数据——也就是说，近 215 百万亿字节。相比之下，大脑的记忆存储容量估计约为 2.5 PB。

DNA Fountain 达到了 DNA 存储理论最大容量的近 90%，每克存储的数据量比以前最好的 DNA 存储方法多近 10 倍。Erlich 表示，这可能是迄今为止开发出的密度最高的数据存储技术。

此外，研究人员证明他们可以使用聚合酶链式反应 (PCR) 轻松复制 DNA 编码的文件，PCR 是一种现在基因实验室普遍使用的技术。这些副本中的数据，甚至副本的副本，依此类推，也都以无错误的方式恢复。

“我不想让人们认为我们在声称五年后他们可以在 Best Buy 商店买到 DNA 硬盘，”Erlich 谨慎地表示。

相反，研究人员认为 DNA 存储的最佳应用是在线存档服务，例如Amazon Glacier，这些服务专为不经常访问数据的长期存储而设计，并且可以接受数小时的文件检索等待时间。

“即使是这样的服务，我们可能还需要十年才能实现，”Erlich 说。

实现实用 DNA 存储的最大障碍可能是成本。例如，研究人员花费了 7,000 美元合成用于记录数据的 DNA，又花费了 2,000 美元读取数据。然而，“现在仍是 DNA 存储的早期阶段，”Erlich 说。虽然目前磁性数据存储相对便宜，但他表示，“在过去的 50 年里，我们在研发上投入了数十亿美元才达到这个阶段；只有其中一小部分投资在了廉价的 DNA 合成上。”

Erlich 说，降低成本的一种方法是采用“快速且粗糙”的 DNA 合成方法，这种方法更容易出错。而新技术的纠错方式“表明我们可以使用质量低得多的合成方法，仍然可以完美地解码文件，”他说。

Erlich 和他在纽约基因组中心的同事 Dina Zielinski 在 3 月 3 日的《科学》杂志上详细介绍了他们的发现。