探索大数据背景下的基因研究

另一个新的挑战是数据位置的管理。由于机构间的合作变得越来越普遍,大量的数据需要共享或联合,这使得地理位置成为数据不可缺少的一个特征。同样的数据集,特别是参照数据或输出数据,可以在不同地理位置存在多个拷贝,或者因法规要求在同一位置存在多个拷贝(如因临床测序平台与研究机构物理隔离产生的多重数据副本)。在这种情况下,有效的管理元数据以减少数据移动或复制,不仅能降低额外存储所需成本,还能减少版本同步带来的问题。

数据置信度

许多复杂的身心机能失调,如糖尿病、肥胖、心脏病、阿尔茨海默氏症和自闭症谱系障碍等,要研究它们的多因素特性,需要在广泛的来源中实施缜密复杂的计算,统计分析大流量数据(基因组、蛋白质组、成像)和观察点(临床、症状、环境、现实证据)。全球数据共享和网络联合保证了访问和分析数据的进程以前所未有的规模和维度不断创新和智能化,数据库和文件仓库的进化也由此相互关联在一起。在这样的前提下,数据置信度作为一个不可或缺的元素在研究中得以被考量。例如,临床数据(基因组和成像)需要被恰当和完整的标识以保护研究课题的机密性。基因组数据需要端到端的溯源以提供完整的审计跟踪和可重复能力。数据的著作权和所有权需要由一个多用户协作机构恰当申明。借助内置特性处理数据准确性,基因组计算机构可以让研究人员和数据科学家根据上下文和置信度分享和探讨大量数据。

数据集线器的功能

为了解决基因组数据管理中遇到的问题,构建一个可伸缩、可扩展层提供数据和元数据给负载,这样的企业级功能可被命名为数据集线器。它可以存储、移动、共享和索引海量基因组的原始和处理后数据。它还管理着从固态硬盘或闪存到磁盘、磁带、以及云的底层异构存储结构。