探索大数据背景下的基因研究

基因组研究基础设施的日益分散性也要求更大甚至全球规模上的数据管理。数据不仅需要在不同的地点移动或共享,还需与负载和工作流相协调。为实现这一目标,数据集线器依赖频谱规模活动文件管理(AFM)进行共享。AFM可扩展全局命名空间到多个站点,允许共享元数据目录或映射远程客户端家目录到本地作为缓存副本。如基因组研究中心可拥有、运营和版本控制所有的参考数据库或数据集,而附属、合作网站或中心可通过这种共享功能访问参考数据集。当数据库的核心副本得到更新,其他站点的缓存副本也会迅速更新。

有了数据集线器,全系统元数据引擎还可用来索引和搜索所有的基因组和临床数据,以挖掘出强大的下游分析和转化研究能力。

负载编排器

本节介绍基因组负载编排所面临的挑战,并利用编排工具帮助减少负载管理工作。

基因组负载管理的挑战

基因组负载管理是非常复杂的。随着基因组应用程序越来越多,它们的成熟度和编程模型也不断分化:许多是单线程(如R)或易并行(如BWA)的,也有的是多线程或启用了MPI的(如MPI BLAST)。但相同的是,所有应用程序都需要在高吞吐量、高性能模式下工作,以产生最终结果。