探索大数据背景下的基因研究

图7 用编排器集成的基因组工作流

图中从左至右依次有以下部件:

  1. 框1:数据(如BCL文件)到达后自动触发CASAVA作为工作流第一步。
  2. 框2:动态子流使用BWA比对序​​列。
  3. 框3:Samtool以作业数组的运行方式进行后处理。
  4. 框4:不同的变型分析子流并行被触发。

基因组工作流结合一些应用程序和工具,把原始序列数据(BCL)处理为变型(VCF)数据。每个框表示一个工作流功能模块,它由映射到功能的基因组应用程序组成,如基因组碱基转换、序列比对、前处理、以及变型提取和分析。这些模块自身可作为独立工作流被集成,并按照逻辑和条件关系被连接到一个更大的工作流中。