探索大数据背景下的基因研究

启用数据缓存,使元数据可轻量分布并弱依赖于网络。

数据集线器解决方案和应用案例

频谱规模的特性是高性能、可伸缩和可扩展,它专为高性能并行计算优化而研发,在计算系统的所有并联计算节点之间,频谱规模可服务于高带宽大数据。鉴于基因组工作流可由数百个应用程序组成,同时这些应用参与着大量文件的并行数据处理,这种能力对计算基因工作流提供数据而言至关重要。

因为基因组工作流可产生大量元数据和数据,以高IOPS固态硬盘和闪存构建系统池的文件系统,可专注于把元数据存储为文件和目录,在某些情况下也可直接存储为小文件。这大大提高了文件系统的性能和大负荷元数据操作的响应能力,如列出目录中的所有文件。

对于可进行大数据并行计算的文件系统,数据集线器可在同一计算节点服务于大数据并行计算和大数据作业,从而省去了Hadoop分布式文件系统(HDFS)的复杂需求。

基于策略的数据生命周期管理能力允许数据集线器把数据从一个存储池移动到另一个,最大化I/O性能和存储效率,并有效减少运营成本。这些存储池的范围可涵盖高I/O闪存盘、大容量存储基础设施,以及继承了磁带管理解决方案的低成本磁带介质。