探索大数据背景下的基因研究

数据量

基因组数据因测序成本的急剧下降不断涌现,对于配备了新一代测序技术的学术医学研究中心AMRC,数据存储容量每6至12个月翻一番已变得司空见惯。AMRC作为纽约的尖端研究机构,于2013年以300TB的数据存储能力起步,截至2013年底,存储量激增超过1PB(1000TB),超12个月前存储总量三倍。更令人吃惊的是,这一增长仍在加速并一直延续至今。对一些世界领先的基因组医药项目,如英格兰基因组(英国)、沙特阿拉伯基因组(卡塔尔)、百万精英项目(美国)以及中国国家基因库等,数据量的起点或基准都不再以千兆字节(TB)计,而是成百上千拍字节(PB)。

数据存取速度

基因组平台对数据存取速度的需求非常苛刻,原因有三点:

文件非常大:在基因研究中,文件通常用来存放研究对象的基因组信息,它可以是单个患者的,亦或是一组患者的。主要有两种类型:二进制队列或图即BAM(由基因组序列比对产生)和变型调用文件即VCF(处理后得到的基因变型),此类文件往往大于1TB,可占用典型基因组数据仓库存储总量的一半。此外,通过扩大研究范围,使用更高的覆盖分辨率,可得出更多的基因组信息(如30至100倍全基因组),这会使存储文件迅速增大。由于基因组研究通常从对罕见变异的研究(单个病人变异提取)演变为常见变异研究,于是出现了一种新的需求:共享成千上万患者的提取样本。以布罗德研究所提供的一个假设为例:对于57000个共享提取的样品,BAM输入文件有1.4PB,而VCF输出文件有2.35TB,两者以现有水准衡量都是海量数据,但可能在不久的将来变得很普遍。