浅谈医学大数据

有报告显示,2011 年,单单美国的医疗健康系统数据量就达到了 150EB。照目前的增长速度, ZB(约 1021GB)和 YB(约 1021GB) 的级别也会很快达到 (IHTT, 2013)。Kaiser Permanente,一个在加州发展起来的医疗健康网络系统, 就有 9 百万的会员,被认为拥有 26.5 到 44PB 的电子健康记录 (IHTT, 2013)。

IT 时代涌现的还有各种网络社交媒体数据,比如曾经 Google 用来预测流感的数据。基因数据也是非常庞大的存在,一次全面的基因测序,产生的个人数据则达到 300GB (Leah, 2014)。公开发布的基因 DNA 微阵列达到 50 万之多,每一阵列包含数万的分子表达值。在生物医药方面,功能性磁共振影像的数据量也达到了数万 TB 级别,每一幅影像包含有 5 万像素值 (Fan, Han, & Liu, 2014)。

此外,各种健身,健康可穿戴设备的出现,使得血压、心率、体重,血糖,心电图(EKG)等的监测都变为现实和可能,信息的获取和分析的速度已经从原来的按“天”计算,发展到了按“小时”,按“秒”计算。比如,一家名为 Blue Spark 的科技公司已经生产出能 24 小时实时监测体温的新型温度计贴片 temptraq。

这种数据的扩展速度和覆盖范围是前所未有的,数据的格式也五花八门,可能是无格式文件(flat file),CSV,关系表,ASCII/ 纯文本文件等等。

同时,数据的来源也纷繁复杂,可能来自不同的地区,不同的医疗机构,不同的软件应用。不可否认,一旦理顺了多格式,多源头,呈爆炸性成长的大数据的整合和分析,医疗大数据将对提高医疗质量,强化患者安全,降低风险,降低医疗成本等方面发挥无与伦比的巨大作用。

医疗大数据的优势和应用场景

有效的整合和利用数字化的医疗大数据对个体医生,康宝中心,大型医院,和医疗研究机构都有着显著的好处。

潜在的利益包括 (W.Raghupathi & Raghupathi, 2014):

1)更多更准确的数据使得疾病能在早期被监测到,从而使治疗更容易和有效。

2)通过对特定个体或人群的健康管理,快速有效地监测保健诈骗。

3)基于大量的历史数据,预测和估计特定疾病或人群的某些未来趋势,比如:预测特定病人的住院时间,哪些病人会选择非急需性手术, 哪些病人不会从手术治疗中受益,哪些病人会更容易出现并发症,等等。麦肯锡估计,单单就美国而言,医疗大数据的利用可以为医疗开支节省出 3 千亿美元一年。

医疗大数据的利用可以从以下几方面减少浪费和提高效率 (Manyika, 以及其他人, 2011):

临床操作: 相对更有效的医学研究,发展出临床相关性更强和成本效益更高的方法用来诊断和治疗病人。

研究和发展:在药品和医疗器械方面,建立更低磨损度,更精简,更快速,更有针对性的研发产品线。统计工具和算法方面,提高临床试验设计和患者的招募,使得治疗方法可以更好地匹配个体患者的病症,从而降低临床试验失败的可能和加快新的治疗方法推向市场。分析临床试验和病人的病历,以确定后续的迹象,并在产品进入市场前发现病人对药物医疗方法的不良反应。

公共卫生:分析疾病模式和追踪疾病暴发及传播方式途径,提高公共卫生监测和反应速度。更快更准确地研制靶向疫苗,例如:开发每年的流感疫苗。

此外,医疗大数据的分析还有利于以下几方面的发展 (W.Raghupathi & Raghupathi, 2014):

循证医学:结合和分析各种结构化和非结构化数据,电子病历,财务和运营数据,临床资料和基因组数据用以寻找与病症信息相匹配的治疗,预测疾病的高危患者或提供更多高效的医疗服务。

基因组分析:更有效和低成本的执行基因测序,使基因组分析成为正规医疗保健决策的必要信息并纳入病人病历记录。

提前裁定欺诈分析:快速分析大量的索赔请求,降低欺诈成功率,减少浪费和滥用。

设备/远程监控:从住院和家庭医疗装置采集和分析实时大容量的快速移动数据,用于安全监控和不良反应的预测。

病人的个人资料分析:全面分析病人个人信息(例如,分割和预测模型)从中找到能从特定健保措施中获益的个人。例如,某些疾病的高危患者(如糖尿病)可以从预防措施中受益。这些人如果拥有足够的时间提前有针对性的预防病情,那么大多数的危害可以降到最低程度,甚至可以完全消除。