用DNA存储数据,这已经不是不可能实现的任务。我们之前为大家介绍过哈佛大学在DNA存储方面的工作,他们将700TB的数据存进了仅仅1克DNA之中。关于DNA存储的研究也不断地有着新进展,不久前,欧洲分子生物学实验室(EMBL)的研究人员创造了一种新的DNA存储数据方法,通过这种方法,他们克服了DNA存储易出错的问题,并且数据的存储时间可达成百上千年。这个新方法于1月23日在《自然》杂志上发表,文中表示,用这种方法存储1亿小时以上的高分辨率的视频,只需一小杯DNA即可。
现如今,全世界的数字信息量实在是太庞大了,大约有3Zb之多(相当于3*10^23个字节),而且还在不断大量涌入新的数字信息,这是数据存储所面临的一道难题。大容量的硬盘很贵并且需要持续的电力供应,就算是最好的“无电”归档材料,例如磁带,也在几十年内便会降解失效。而这在生命科学领域也成为了一个日益严重的问题,因为大量的数据(包括DNA序列)也是科学记录的重要部分。
“我们都知道DNA是一种很稳定的存储信息的介质,因为我们可以从千万年前的猛犸象的骨头里提取DNA,可见它能保存非常长的时间。”欧洲分子生物学实验室的尼克·高曼(Nick Goldman)解释道,“而且它非常小,密度又非常高,存储起来还不需要任何电力支持,所以运输和保存都很容易。”
尼克·高曼与他合成出来的人工DNA。图片来自EMBL
读取DNA的工作很简单,但是如何准确地写入数据仍然是实现DNA存储的主要障碍。目前研究者主要面临两个困难:第一,使用现在的方法只能制造出一小段DNA;第二,DNA的读写都非常容易出错,尤其是在大量相同的字符被编码进DNA时。而尼克·高曼和同事伊万·伯尼(Ewan Birney)想出了一种方法,克服了上述问题。
“我们只能使用较短的DNA序列来进行编码,但这种编码方式又会产生大量的相同字符串。所以我们就想,干脆就将编码分开成两个方向的若干个重叠的碎片,每个都搭载有索引信息,这样可以显示出每个碎片是属于整个代码的哪一段,这样就设计出了一个不允许重复的编码方法。利用这种方法,数据只有在四个碎片上出现相同的错误才会读取失败,而这种情况又是非常罕见的。”伊万·伯尼说道。
新的方法需要从编码信息中合成DNA,加利福尼亚州的安捷伦科技公司为研究者们提供了合成设备。伊万和尼克将一段经过DNA编码后数据寄给了安捷伦公司,其中包括一个马丁·路德·金《我有一个梦想》演讲的mp3文件,一张欧洲分子生物学实验室的jpg格式照片,一篇开创性论文《核酸的分子结构》的pdf文档,一首莎士比亚十四行诗的txt文件和一份编码的描述文件。
“我们从网上下载了这些文件,然后用它们合成了成百上千段DNA,最终合成得到的东西就像一小团灰尘,”安捷伦公司的艾米丽博士说道。她将样本寄回了实验室,那里的研究者将DNA排序后就可对其进行无错译码。
“我们以分子形式(即DNA)创造出了一种具有高容错能力的编码方式,而且这种存储方式在合适的条件下可以存放一万年,甚至更久,”尼克说道,“只要有人知道这些编码是什么,再有一台可以读取DNA的机器,他们就可以知道其中的内容了。”
虽然还有很多实际问题需要解决,但是DNA的这种高密度和持久性使得它成为一种非常吸引人的存储介质。未来研究者将进一步完善编码方案,探索实际问题,为DNA存储的商业化铺好道路。