探索大数据背景下的基因研究

资源管理:按需求动态、弹性的分配计算资源。
  • 负载管理:通过分配作业到本地或远程集群等不同计算资源,有效进行负载管理。
  • 工作流管理:通过逻辑和自动化流程把应用程序联系在一起。
  • 溯源管理:关联元数据记录和保存负载和工作流。
  • 基于工作流逻辑和应用需求(如架构、CPU、内存、I/O),通过映射和分配负载到有弹性的异构资源(如HPC、Hadoop、Spark、OpenStack/Docker、Cloud),编排器在不同的计算基础设施和高速增长的基因组计算数组间定义出抽象层。

    资源管理器

    该功能以策略驱动的方式分配计算资源,以满足基因组负载的计算需求。最常用的资源是高性能计算裸机集群(HPC)。该资源管理器提供一次性资源,或可动态转换和分配的资源。如果说数据集线器I/O管理提供了存储服务层,那么可以认为资源管理器提供了计算服务。此外,新型的基础设施可被添加到资源池,包括大数据Hadoop集群、Spark集群、OpenStack虚拟机集群和Docker集群。

    基于负载信息管理转换资源是对资源管理器的基本需求。例如,对于被批量比对作业和Spark机器学习作业共用的基因组基础设施,在运行时负载会产生波动,资源管理器能通过感知利用率转移资源,以计算槽或容器的形式支持各作业的运行。