根据马萨诸塞州弗雷明汉市的国际数据公司(International Data Corporation)提供的信息,到 2020 年,人类生成的数据量可能达到 44 万亿千兆字节。这相当于 6 座从地球延伸到月球的 128 吉字节 iPad Air 高塔。
要利用所有这些数据,就需要将其存储在某个地方,而 DNA 可能能够胜任这项任务。
现在,科学家们使用一种名为 DNA Fountain 的新策略,几乎达到了 DNA 的理论存储容量,并且仍然以零错误率恢复了数据。该研究的首席作者、哥伦比亚大学计算生物学家 Yaniv Erlich 表示,这项新技术的秘密在于它基本上将文件编码到 DNA 中,就像非常简单的数独谜题一样。
数据到 DNA
DNA 由称为核苷酸的分子链组成:腺嘌呤、胸腺嘧啶、胞嘧啶和鸟嘌呤,缩写为 A、T、C 和 G。就像墨水图案可以表示字母一样,核苷酸序列可以用来编码数据。
正如长毛猛犸象和尼安德特人化石的基因分析所揭示的那样,DNA 可以保存数千年——不像磁带,磁带可能在十年内就会降解。DNA 还紧凑且不需要任何电力进行存储,因此保存和运输它可能相对容易。
先前尝试将数据编码到 DNA 链中的方法仅达到了 DNA 存储理论最大容量的一半左右。此外,由于 DNA 合成过程中引入的错误,先前的工作经常出现检索数据的小间隔。但 Erlich 在开发 DNA Fountain 时借鉴了报纸的娱乐版。
网格
在数独中,玩家会得到大部分空白的网格,网格中的少数数字作为提示,指示其余的网格应该如何填写。DNA Fountain 以非常相似的方式生成关于文件内容的许多“提示”。所有这些数据都被编码到 DNA 中,当需要从这些分子中检索数据时,即使丢失了少量的“提示”和文件片段,其他的提示也可以帮助揭示丢失了什么数据,Erlich 说。
Erlich 和他的团队使用新技术将六个文件编码到 DNA 中
一个名为Kolibri的完整计算机操作系统。
一种被称为zip 炸弹的计算机病毒。
1895 年的法国电影《火车进站》,根据都市传说,这部电影以一列真人大小的火车移动影像吓坏了观众。
先驱者号行星探测器铭牌,复制了放置在先驱者号航天器上的金属板,旨在向任何可能接收到的外星智能传递信息。
一张 50 美元的亚马逊礼品卡。
研究人员之所以包含操作系统、计算机病毒和电影,是因为“这些文件对错误非常敏感,我们想证明可以从中完美地检索数据,”Erlich 说。此外,“我们选择香农的手稿是因为它对我们的工作至关重要,选择先驱者号铭牌是因为它对人类至关重要。”
科学家们添加了亚马逊礼品卡,以鼓励其他人重现研究团队的工作。
“我们将 DNA 测序数据与一位对这项研究感兴趣的 Twitter 粉丝分享了,”Erlich 说。“我告诉他,如果他能解码数据,他就能拿到礼品卡,他很高兴地做到了,并买了一本好书。”
早期、早期技术
研究人员将这六个文件合并到一个大小略大于 2.1 兆字节的压缩文件中。然后,他们使用 DNA Fountain 将其编码成 72,000 条 DNA 链,这花费了两周时间进行合成。
为了读取文件,科学家们使用了 DNA 测序技术,然后使用软件将 DNA 序列翻译成二进制数据。他们以零错误率恢复了文件。
总而言之,这种新的编码策略可以将一克 DNA 存储近 215 PB 的数据——也就是说,近 215 百万亿字节。相比之下,大脑的记忆存储容量估计约为 2.5 PB。
DNA Fountain 达到了 DNA 存储理论最大容量的近 90%,每克存储的数据量比以前最好的 DNA 存储方法多近 10 倍。Erlich 表示,这可能是迄今为止开发出的密度最高的数据存储技术。
此外,研究人员证明他们可以使用聚合酶链式反应 (PCR) 轻松复制 DNA 编码的文件,PCR 是一种现在基因实验室普遍使用的技术。这些副本中的数据,甚至副本的副本,依此类推,也都以无错误的方式恢复。
“我不想让人们认为我们在声称五年后他们可以在 Best Buy 商店买到 DNA 硬盘,”Erlich 谨慎地表示。
相反,研究人员认为 DNA 存储的最佳应用是在线存档服务,例如Amazon Glacier,这些服务专为不经常访问数据的长期存储而设计,并且可以接受数小时的文件检索等待时间。
“即使是这样的服务,我们可能还需要十年才能实现,”Erlich 说。
实现实用 DNA 存储的最大障碍可能是成本。例如,研究人员花费了 7,000 美元合成用于记录数据的 DNA,又花费了 2,000 美元读取数据。然而,“现在仍是 DNA 存储的早期阶段,”Erlich 说。虽然目前磁性数据存储相对便宜,但他表示,“在过去的 50 年里,我们在研发上投入了数十亿美元才达到这个阶段;只有其中一小部分投资在了廉价的 DNA 合成上。”
Erlich 说,降低成本的一种方法是采用“快速且粗糙”的 DNA 合成方法,这种方法更容易出错。而新技术的纠错方式“表明我们可以使用质量低得多的合成方法,仍然可以完美地解码文件,”他说。
Erlich 和他在纽约基因组中心的同事 Dina Zielinski 在 3 月 3 日的《科学》杂志上详细介绍了他们的发现。














