探索大数据背景下的基因研究

随着越来越多的机构以分布式资源部署混合云解决方案,编排器可基于数据位置预定义策略、临界值和资源有效性实时输入来均衡负载。如工作流可被设计用于处理基因组原始数据,以使其更切合测序器需要,并使用远程大数据集群的MapReduce模型进行序列比对和组合;也可设计为当基因处理达50%完成率时,触发代理事件把数据从卫星系统转移到中央高性能计算集群,从而使数据迁移和计算可并发进行以节省时间和成本。

由研究机构发布基因组流程与他人共享,是对另一个编排器的需求。由于工作流模板可被保存和分发,一些美国和卡塔尔的主要癌症和医学研究机构已开始通过交换基因组工作流进行合作。

溯源管理

有许多计算方法和应用可应用于收集、分析和注释基因组序列。应用程序、基准数据和运行时变量是重要的溯源信息,它们可对基因组分析的解读和维护产生重要影响。目前,很少用不公开标准或惯例来捕捉溯源信息,因为它可能导致重要计算分析数据的缺失。这个问题同样潜伏在其他因素中,例如以复杂数据、工作流程或渠道作为高层次分析过程,或者所用的应用程序频繁发布更新。

因此,溯源管理成为编排器需要的一个可与数据集线器元数据管理功能相媲美重要功能。溯源数据也可被理解为负载元数据,溯源管理器的功能需求是捕捉、存储和索引用户定义的溯源数据,以透明无中断的方式追溯到任何已有的计算负载或工作流。

基于这样的需求,多种技术和解决方案正在研发,有些已经完成并已投入商用,如Lab7的ESP平台和General Atomics的Nirvana。IBM也致力于开发了一种用于大规模、近实时的元数据管理系统,可与数据集线器和编排器协同工作。