中国IDC圈5月23日报道,2016年1月在瑞士达沃斯召开的世界经济论坛上的一个panel讨论中,美国副总统Joe Biden当场要求临床医生和研究者举例表示人类在抗击癌症中突破的障碍。当几个重要话题浮现时,最重要的议题是“大数据”,具体而言,即“大数据”的收集、分析和应用。
大量的肿瘤DNA测序通道接近20,000基因组
研究者表示:“ 大数据 ”是有效的,这是因为有重大的信息可以从大数据集合里分析。越是大样本的体量,越能发现一些在小样本体量中难以发现的小问题。另一些研究者则表示:“大数据”岂止于大?而是越多越好。
来自美国 St. Jude儿童研究中心的首席信息官、高级副总裁Keith Perry认为,“大数据”包含额外的三层意思:多个品种的数据类型、数据生成的速度和数据集成的程度。在他看来,目前的许多数据库之间无相互接口,因为它们是由单独的预防、研究和临床部门产生的,现在缺乏一个整合这些不同结构、集中信息的潜在平台。
另一位来自爱立信公司的Narayan Desai博士引用了其在2015年的新闻文章,基因组学将不得不解决的基本问题是数据是如何生成的。尽管目前的数据收集和分析能力有限,但应该利用好它,因为测序的可访问性,将导致访问信息出现爆炸性的增长,并在很大程度上较为分散,传统的信息挖掘将难以解决问题。
影响一:隐藏的弱点
最近,一些科学家建议:针对性和创造性的利用现有的数据可以指导临床实践。来自加州大学旧金山分校(UCSF)的Nevann Krogan教授表示:基因组学已经为癌症治疗带来了重大变革,其作用远超过以往的遗传学知识。尽管测序提供商认为我们投入的金钱越多,结果越清晰,事实上并不是如此。我们现在已经达到了提取有效信息的饱和点。
以癌症为例,目前针对各种各样的癌症已经出现了“海量”的数据。尽管数据暴增趋势在继续,但是Krogan 教授认为,突破癌症治疗所需的数据已经达标。成堆的新数据只能显示癌症惊人的多样性,即使是一个单一的肿瘤也包含独特的成千上万的基因突变,这使得使研究人员找出哪些是驱动疾病的基因愈加困难。
Krogan教授和同事于2015年5月21日在《Molecular Cell》上发表文章:除了积累更多的数据之外,研究者需要更加仔细地找出现有数据的关联,并成立了“肿瘤细胞地图项目”(CCMI),旨在系统地介绍癌症基因间的相互作用,以及它们如何导致了疾病与健康的状态,从而研究出癌细胞里的突变基因和蛋白的“路线图”。
影响二:肿瘤样本关联性分析
“肿瘤细胞地图项目”(CCMI)将加州大学圣迭戈分校(UCSD)的顶尖生物医学科学家和加州大学旧金山分校(UCSF)顶尖的细胞结构学家整合到一起,共同研究基因组学相关信息,瓶颈是如何解释肿瘤基因组信息。
加州大学圣地亚哥分校的Ideker教授表示:进行癌症DNA测序的样本已经接近20000例基因组,但仍然难以分析癌症基因组的基因网络,即“没有两个肿瘤患者在基因层面上看起来很相像。”因此,癌症基因组图谱(TCGA)项目,国际癌症基因组协会(ICGC)已经开始系统地分析成千上万的肿瘤的多重信息,包括mRNA和microRNA表达、DNA拷贝数和甲基化以及DNA序列。
现在强烈需要有一个可以整合和解释基因组规模分子信息的方法,以洞察驱动肿瘤恶化的过程;同时也迫切需要医疗机构的参与,以解决公司在分析肿瘤基因时因无法获得临床相关的数据而得出不当结论。
影响三:子网络分析
解决子网络分析需要综合信息方法,尤其是综合已知编码蛋白质的基因在表达蛋白质内部子网或通路作用间的数据库交互。这需要基因或蛋白质在各个子网络内形成的聚合表达式组成的巨大交互网络,而不是清单单个基因或蛋白质。
研究人员表示:这些子网可以识别不同种群患者之间的基因表达差异导致的不同临床行为。与传统的分析相比,虽然这种方法需要大量的生物信息学、统计学和蛋白结构知识,但这种子网分析能够解释基因表达差异下的分子通路,毕竟它使用的数据已经存在。
Ideker博士和他的同伴生物信息学专家表示:对于大多数中度乳腺癌风险的患者,传统因素不是预测,大约70 – 80%的淋巴癌阴性患者在接受不必要的辅助化疗。当前的许多风险因素可能是次要表现而不是疾病的主要机制。一个新的挑战是如何确定新的与疾病更加直接相关的疾病,可以更准确地预测个体患者的风险转移。