探索大数据背景下的基因研究_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

跨地域分布：这是高性能计算领域近期出现的新功能，即数据的共享和联合特性：数据和计算资源被部署在不同的位置，与此同时仍可供用户、应用和工作流访问。在参考架构中，数据集线器和负载编排器与此紧密相关。

很多全球领先的医疗保健和生命科学机构都在积极探索这样的架构，以支持他们的综合研究计算基础设施。下面的章节，将阐述此类参考架构的关键部件、各种最佳实践及项目经验。

数据集线器

数据管理是基因组研究平台最根本的能力，因为海量的数据需要在正确的时间和地点以恰当的成本进行处理。时间方面，可以是在高性能计算系统中进行数小时的数据分析，如果数据需要从存储归档中调出进行再分析，可能需要数年的时间。空间方面，可以在当地的基础设施间实施近线存储，或是云端远程物理存储。

数据管理的挑战

大数据的四个V恰恰是基因组数据管理的挑战：非常大的数据流和容量(数据量Volume)，苛刻的I/O速度和吞吐量要求(数据存取速度Velocity)，快速进化的数据类型和分析方法(数据多样性Variety)，以及共享能力和探索大量数据的环境和可靠性(数据置信度Veracity)。此外，还有法规(患者数据隐私与保护)，种源管理(全版本控制与审计跟踪)和工作流编排等额外的需求，使数据管理难上加难。

7/27 首页上一页 5 6 7 8 9 10 下一页尾页