探索大数据背景下的基因研究_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

数据量

基因组数据因测序成本的急剧下降不断涌现，对于配备了新一代测序技术的学术医学研究中心AMRC，数据存储容量每6至12个月翻一番已变得司空见惯。AMRC作为纽约的尖端研究机构，于2013年以300TB的数据存储能力起步，截至2013年底，存储量激增超过1PB(1000TB)，超12个月前存储总量三倍。更令人吃惊的是，这一增长仍在加速并一直延续至今。对一些世界领先的基因组医药项目，如英格兰基因组(英国)、沙特阿拉伯基因组(卡塔尔)、百万精英项目(美国)以及中国国家基因库等，数据量的起点或基准都不再以千兆字节(TB)计，而是成百上千拍字节(PB)。

数据存取速度

基因组平台对数据存取速度的需求非常苛刻，原因有三点：

文件非常大：在基因研究中，文件通常用来存放研究对象的基因组信息，它可以是单个患者的，亦或是一组患者的。主要有两种类型：二进制队列或图即BAM(由基因组序列比对产生)和变型调用文件即VCF(处理后得到的基因变型)，此类文件往往大于1TB，可占用典型基因组数据仓库存储总量的一半。此外，通过扩大研究范围，使用更高的覆盖分辨率，可得出更多的基因组信息(如30至100倍全基因组)，这会使存储文件迅速增大。由于基因组研究通常从对罕见变异的研究(单个病人变异提取)演变为常见变异研究，于是出现了一种新的需求：共享成千上万患者的提取样本。以布罗德研究所提供的一个假设为例：对于57000个共享提取的样品，BAM输入文件有1.4PB，而VCF输出文件有2.35TB，两者以现有水准衡量都是海量数据，但可能在不久的将来变得很普遍。

8/27 首页上一页 6 7 8 9 10 11 下一页尾页