跨地域分布:这是高性能计算领域近期出现的新功能,即数据的共享和联合特性:数据和计算资源被部署在不同的位置,与此同时仍可供用户、应用和工作流访问。在参考架构中,数据集线器和负载编排器与此紧密相关。
很多全球领先的医疗保健和生命科学机构都在积极探索这样的架构,以支持他们的综合研究计算基础设施。下面的章节,将阐述此类参考架构的关键部件、各种最佳实践及项目经验。
数据集线器
数据管理是基因组研究平台最根本的能力,因为海量的数据需要在正确的时间和地点以恰当的成本进行处理。时间方面,可以是在高性能计算系统中进行数小时的数据分析,如果数据需要从存储归档中调出进行再分析,可能需要数年的时间。空间方面,可以在当地的基础设施间实施近线存储,或是云端远程物理存储。
数据管理的挑战
大数据的四个V恰恰是基因组数据管理的挑战:非常大的数据流和容量(数据量Volume),苛刻的I/O速度和吞吐量要求(数据存取速度Velocity),快速进化的数据类型和分析方法(数据多样性Variety),以及共享能力和探索大量数据的环境和可靠性(数据置信度Veracity)。此外,还有法规(患者数据隐私与保护),种源管理(全版本控制与审计跟踪)和工作流编排等额外的需求,使数据管理难上加难。