探索大数据背景下的基因研究

新技术和研究方法的成功同样带来了相当大的成本,海量数据成为亟待解决的难题:

  1. 基因组数据在过去的8年中,每5个月翻一番。
  2. 基因编码项目为80%的基因组赋予了明确的含义,所以获取全基因组序列变得尤为重要。
  3. 癌症基因组研究揭示了一组不同的癌细胞基因变体,通过全基因组测序的跟踪和监控,每次分析都会产生约1TB的数据。
  4. 已有越来越多的国家启动了基因组测序项目,如美国、英国、中国和卡塔尔。这些项目动辄就会产生数以百PB级的测序数据。

对端到端架构的要求

为了满足基因医药研究对于速度、规模和智能化的苛刻要求,需要端到端参考架构涵盖基因计算的关键功能,如数据管理(数据集线器),负载编排(负载编排器)和企业接入(应用中心)等。为了确定参考架构(能力与功能)和映射解决方案(硬件与软件)的内容和优先级,需要遵循以下三个主要原则: