探索大数据背景下的基因研究

四个功能可分别映射到数据集线器:

I/O管理:针对大型和可扩展I/O,有两个方面的能力。一是服务像BAM这种大文件的I/O带宽,二是服务像BCL和FASTQ这种大量小文件的IOPS。由于这些不同的需求,传统的额定量架构很难胜任性能和规模需求。数据集线器I/O管理通过引入池的概念,将小文件元数据的I/O操作与大文件的操作分离,解决了这一问题。这些存储池,在映射到不同底层硬件,提供最佳存储性能的同时,仍能在文件系统级达到统一,对所有数据和元数据提供唯一的全局命名空间,并对用户透明。

生命周期管理:对数据被创建、删除和保存的整个生命周期进行全线管理。如果以温度作比喻来描述数据需要被捕获、处理、迁移和归档的阶段和及时性。使用像高通量测序仪这样的工具捕获而来的原始数据温度最高,并需要有健壮I/O性能的高性能计算集群(所谓的原始存储)来处理。初步处理后,原始和处理后数据变得暖起来,因为它会采取一个基于策略的过程,以确定最终操作,如删除、保留在一个长期存储池或存档等。这个过程会在帐户文件中记录文件类型、大小、使用情况(如用户最后访问的时间)和系统使用信息。任何符合操作需求的文件要么被删除,要么从一个存储池迁移到另一个,比如一个更大容量、但低效率且廉价的存储池。这种目标层可以是一个磁带库,通过配备存储池和诸如磁带这样的低成本介质,可高效利用底层存储硬件并显著降低成本。

共享管理:针对存储设施逻辑域内部和之间数据共享的需求。随着基因组样品和参考数据集变得更大(某些情况下每负载工作量可超1PB),为了共享和协作,移动和复制数据变得越发困难。为最小化数据复制对数据共享造成的影响,数据集线器在共享管理下需要具备三个特点,从而使数据共享和移动可发生在私有高性能网络或广域网,并高度依赖安全和容错性。