浅谈医学大数据

然而,根据一份针对美国和加拿大 333 家医疗机构及 10 家其他机构的调查 (IHTT, 2013),2013 年,医疗机构累积的数据量比 2011 年多出了 85%, 但 77% 的医疗健康行政人员对自己机构在数据管理方面的能力评价为“C”。此外,仅有 34% 报告他们能从电子健康记录(EHR)中获取数据用来帮助病人,而有 43% 报告他们不能收集到足够多的数据来帮助病人。由此可见,在北美的医疗系统中,医疗大数据的管理使用准备工作还有一大段路要走。中国也是处在起步阶段。

数据分析框架(传统数据分析框架,大数据分析框架)

医疗大数据有着前面第一节提到的所有特征。在医疗大数据带来各种优势的同时,大数据随之带来的各种特性使得传统的数据处理和数据分析方法及软件捉襟见肘,问题多多。在大数据时代出现之前,受限于数据量的可获得性和计算能力的有限性,传统的数据管理和分析采用着不同的思路和流程。传统上,对于问题的研究建立在假设的基础上进行验证,进而研究事物的相关因果性,希望能回答“为什么”。

而在大数据时代,海量数据的涌现提供了从不同角度更细致更全面观察研究数据的可能,从而打开了人们的好奇心,探索欲望,人们想知道到数据告诉了我什么,而不仅仅是我的猜想是否被数据验证了。人们越来越多地用大数据挖掘各种感兴趣的关联,非关联等相关性,然后再进一步比较,分析,归纳,研究(“为什么”变成一个选项而不是唯一终极目标)。大数据与传统数据思路上的不同导致了分析流程的不同,如图一所示:

图一

面对海量的数据和不同的分析思路,大数据的管理和分析与传统数据分析的差异日益加大。回答特定问题的单一预设结构化数据库明显不能完全胜任处理大数据的海量及混杂等问题。数据的混杂多样性具体可以从一些调查数据中表现出来。SAS 的一份调查报告显示机构内的非结构化数据最多可以占到总数据量的 85%,而这些非数字,非结构化的数据却必须被量化分析和用到决策分析中 (Troester, 2012)。

另一份 2013 年进行的 SAS 调查报告显示在 461 个提供完整反馈信息的机构中只有 26% 的机构表示他们所拥有的大数据是结构化的 (Russom, 2013)。 此外,在机构中,分析的数据一般不会只有一个单一的来源。Alteryx 的调查报告显示在 200 家被调查的机构中只有 6% 的机构表示他们的数据是只有一个来源,最为普遍的情况是 5-10 个来源, 具体分布如图二 (Alteryx, 2014)。

调查中还显示 90% 的被调查样本表示有数据整合问题,37% 表示需要等其他小组提供数据,30% 表示不能得到他们想要的数据,一般估计是一个数据分析师的 60% 到 80% 的时间是花在数据处理准备阶段上的 (Alteryx, 2014)。

图二

由此可见有效的数据管理,数据库建立及数据分析流程的重要性。传统的数据管理的过程包括抽取(Extraction),转换(Transformation)和载入(load)。通过 ETL,可以赋予数据一种合适恰当的结构用于特定的分析发现。具体数据准备分析流程如图三所示:1)抽取单个或多个来源的数据 。2)净化,格式化,标准化,聚合,添加,或遵循其他特定的数据处理规则。3)载入处理完的数据到特定的数据库或储存为特定的文件格式。4)采用各种方法进行数据分析。

图三

ETL 的中心内容仍旧适用于大数据,但由于大数据的大量性和多样性对数据库和数据管理及处理方法的要求越来越高,也越来越复杂,这样线性处理整个数据变得相当耗费人力,物力,和时间。

此外,大数据的快速性,易变性也使得把数据储存在单一的中央数据库变的不太可行。 在这种情况下,最流行的思路是把数据分割处理,也就是把数据储存到多个储存节点(比如网络数据库),在每个节点单独处理数据(甚至处理完就接着进行初步分析, 但处理的程度依客户具体问题而调整),然后再汇总整合到一起,提供给单个或多个数据库,接着根据需要选择合适的分析方法获取有用结果。ETL 贯穿于整个大数据管理分析的流程中。图四演示了大致的大数据管理分析流程及一些大数据处理分析平台工具的名字。