用DNA实现无错数据存储_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

用DNA存储数据，这已经不是不可能实现的任务。我们之前为大家介绍过哈佛大学在DNA存储方面的工作，他们将700TB的数据存进了仅仅1克DNA之中。关于DNA存储的研究也不断地有着新进展，不久前，欧洲分子生物学实验室(EMBL)的研究人员创造了一种新的DNA存储数据方法，通过这种方法，他们克服了DNA存储易出错的问题，并且数据的存储时间可达成百上千年。这个新方法于1月23日在《自然》杂志上发表，文中表示，用这种方法存储1亿小时以上的高分辨率的视频，只需一小杯DNA即可。

现如今，全世界的数字信息量实在是太庞大了，大约有3Zb之多（相当于3*10^23个字节），而且还在不断大量涌入新的数字信息，这是数据存储所面临的一道难题。大容量的硬盘很贵并且需要持续的电力供应，就算是最好的“无电”归档材料，例如磁带，也在几十年内便会降解失效。而这在生命科学领域也成为了一个日益严重的问题，因为大量的数据(包括DNA序列)也是科学记录的重要部分。

“我们都知道DNA是一种很稳定的存储信息的介质，因为我们可以从千万年前的猛犸象的骨头里提取DNA，可见它能保存非常长的时间。”欧洲分子生物学实验室的尼克·高曼（Nick Goldman）解释道，“而且它非常小，密度又非常高，存储起来还不需要任何电力支持，所以运输和保存都很容易。”

尼克·高曼与他合成出来的人工DNA。图片来自EMBL

读取DNA的工作很简单，但是如何准确地写入数据仍然是实现DNA存储的主要障碍。目前研究者主要面临两个困难：第一，使用现在的方法只能制造出一小段DNA；第二，DNA的读写都非常容易出错，尤其是在大量相同的字符被编码进DNA时。而尼克·高曼和同事伊万·伯尼（Ewan Birney）想出了一种方法，克服了上述问题。

“我们只能使用较短的DNA序列来进行编码，但这种编码方式又会产生大量的相同字符串。所以我们就想，干脆就将编码分开成两个方向的若干个重叠的碎片，每个都搭载有索引信息，这样可以显示出每个碎片是属于整个代码的哪一段，这样就设计出了一个不允许重复的编码方法。利用这种方法，数据只有在四个碎片上出现相同的错误才会读取失败，而这种情况又是非常罕见的。”伊万·伯尼说道。

新的方法需要从编码信息中合成DNA，加利福尼亚州的安捷伦科技公司为研究者们提供了合成设备。伊万和尼克将一段经过DNA编码后数据寄给了安捷伦公司，其中包括一个马丁·路德·金《我有一个梦想》演讲的mp3文件，一张欧洲分子生物学实验室的jpg格式照片，一篇开创性论文《核酸的分子结构》的pdf文档，一首莎士比亚十四行诗的txt文件和一份编码的描述文件。

“我们从网上下载了这些文件，然后用它们合成了成百上千段DNA，最终合成得到的东西就像一小团灰尘，”安捷伦公司的艾米丽博士说道。她将样本寄回了实验室，那里的研究者将DNA排序后就可对其进行无错译码。

“我们以分子形式（即DNA）创造出了一种具有高容错能力的编码方式，而且这种存储方式在合适的条件下可以存放一万年，甚至更久，”尼克说道，“只要有人知道这些编码是什么，再有一台可以读取DNA的机器，他们就可以知道其中的内容了。”

虽然还有很多实际问题需要解决，但是DNA的这种高密度和持久性使得它成为一种非常吸引人的存储介质。未来研究者将进一步完善编码方案，探索实际问题，为DNA存储的商业化铺好道路。