多集群存储:即计算集群可直接访问远程系统并按需要存取数据。
云数据缓存:即特定数据仓库(主机)的元数据索引和全数据集,可被有选择的异步缓存到远程(客户端)系统,以实现本地快速访问。
联合数据库:可使分布式数据库间安全联合。
元数据管理:此功能为前面三点提供了基础。存储、管理和分析数十亿数据对象对任何数据仓库而言都是必须具备的能力,尤其是扩展超出PB级的数据仓库,而这正成为基因组基础设施的发展趋势。元数据包括系统元数据,如文件名、路径、大小、池名称、创建时间、修改或访问时间等,也涵盖以键值对形式存在的自定义元数据,这样被应用程序、工作流或用户所使用的文件可与之创建关联,从而用于实现以下目标。
基于大小、类型或使用情况放置和移动文件以方便I/O管理。
基于对元数据的闪电扫描收集信息,启用基于策略的数据生命周期管理。