探索大数据背景下的基因研究_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

四个功能可分别映射到数据集线器：

I/O管理：针对大型和可扩展I/O，有两个方面的能力。一是服务像BAM这种大文件的I/O带宽，二是服务像BCL和FASTQ这种大量小文件的IOPS。由于这些不同的需求，传统的额定量架构很难胜任性能和规模需求。数据集线器I/O管理通过引入池的概念，将小文件元数据的I/O操作与大文件的操作分离，解决了这一问题。这些存储池，在映射到不同底层硬件，提供最佳存储性能的同时，仍能在文件系统级达到统一，对所有数据和元数据提供唯一的全局命名空间，并对用户透明。

生命周期管理：对数据被创建、删除和保存的整个生命周期进行全线管理。如果以温度作比喻来描述数据需要被捕获、处理、迁移和归档的阶段和及时性。使用像高通量测序仪这样的工具捕获而来的原始数据温度最高，并需要有健壮I/O性能的高性能计算集群(所谓的原始存储)来处理。初步处理后，原始和处理后数据变得暖起来，因为它会采取一个基于策略的过程，以确定最终操作，如删除、保留在一个长期存储池或存档等。这个过程会在帐户文件中记录文件类型、大小、使用情况(如用户最后访问的时间)和系统使用信息。任何符合操作需求的文件要么被删除，要么从一个存储池迁移到另一个，比如一个更大容量、但低效率且廉价的存储池。这种目标层可以是一个磁带库，通过配备存储池和诸如磁带这样的低成本介质，可高效利用底层存储硬件并显著降低成本。

共享管理：针对存储设施逻辑域内部和之间数据共享的需求。随着基因组样品和参考数据集变得更大(某些情况下每负载工作量可超1PB)，为了共享和协作，移动和复制数据变得越发困难。为最小化数据复制对数据共享造成的影响，数据集线器在共享管理下需要具备三个特点，从而使数据共享和移动可发生在私有高性能网络或广域网，并高度依赖安全和容错性。

13/27 首页上一页 11 12 13 14 15 16 下一页尾页