探索大数据背景下的基因研究

负载管理器

基因组计算资源需要在资源管理器的控制下有效共享、使用并提供最佳性能给基因组应用程序。负载管理器能处理要求苛刻的、分布式的关键任务应用程序,如Illumina公司的ISSA​​C,CASAVA,bcltofas​​tq,BWA,Samtools,SOAP(短寡核苷酸分析软件包)以及GATK。负载管理器还需要高度可扩展和可靠性以管理批量提交的大型作业,这是中大型基因组计算机构的通用需求。例如纽约一家医学院的基因组计算集群通常需要处理含25万个作业的排队系统,其间不能崩溃或当机。世界上一些大型的基因组中心,负载管理器队列有时会存在上百万个作业。对于成熟度不同、架构需求(如CPU,GPU,大内存,MPI等)也不同、且日益增加的基因组研究应用程序,负载管理器提供了必要的资源抽象使作业可在提交、放置、监控和记录时保持对用户透明。

工作流引擎

针对基因组的工作流程管理,工作流引擎致力于把作业连接为一个逻辑网络。该网络可按多个步骤让计算流线性开展,比如序列对齐、组合、然后变形提取,也可以基于用户定义的标准和完成条件以更加复杂的分支来运行。

编排器工作流引擎需要动态、快速的复杂工作流处理能力。独立的负载和作业可通过用户界面,结合变量、参数和数据被定义到标准工作流模板。有许多负载类型可被集成到工作流引擎,如并行高性能计算应用程序,大数据应用程序,或者分析负载的R脚本。在被定义和验证后,用户可使用该模板从他们的工作站直接启动工作流,或者发布至企业站点为他人所用。