埃博拉病毒——大数据时代的疫情防控

将全球各地的机场数据整合后,人们即可以得到各地点相对引入风险的估计值,下一步则是考虑如何将分析结果向公众展示。显然数据可视化往往是直观有效展示分析结果的最佳方式,有人提供了一种基于D3实现的交互式网络分析图表。(图一展示了一个交互式图表的截图。有兴趣的读者可翻阅原图。图表链接:http://rocs.hu-berlin.de/D3/ebola/)

yq01

图1

2. 由移动通信数据预测疫情

埃博拉病毒在西非的爆发引起了全世界的关注,人们纷纷把注意力头像了机场等引起人口流动的公共场所,正如上一节所说,机场数据的确对于流行病学家等研究者们而言具有极高的分析价值,但除此之外,基于手机移动端产生的数据同样极具应用潜力。

用户每次利用手机通话的过程中都会同时产生相应的通话记录数据,其中自然也包含了电话号码、通话时间以及大致的通信地点等重要信息。对于运营商而言,这些数据可以为各地基站的部署提供参考从而提升通信网络。另一方面对于城市规划者而言则可以基于该数据判断相关地点是否需要拓展相应的公共交通设施。

然而除了上述这些相对常用的应用外,在流行病学的应用却更令人期待,更激动人心。事实上到目前为止一般情况下对于疾病扩散建模的常用方法依然是基于人口普查的数据以及相关调查。然而对于通信记录数据,人们却可以得到实时更新的数据,也就是说在实际应用中无需估计某地区的人口是否会迁移。同时幸运的是,在近几年中确实并不缺乏类似的成功案例。2009年在墨西哥爆发的猪流感,研究人员就曾利用通信数据监测公众对于政府发布的健康预警信息的反应。此后2010年随海地地震爆发的霍乱疫情,研究人员则同样基于手机通信数据建模并给出了最需要援助地点的最优估计。

在对于埃博拉病毒研究的实际操作中却更为复杂,一个最主要的原因在于西非大部分民众并没有手机或者其他通信设备。不过尽管如此,某种程度上它却依然优于基于陈旧数据的统计分析。事实上研究人员如果可以从一个传染病爆发的地域追踪到人口的流动,那么对于下一个最有可能爆发传染病的地点就会有一个比较有效的估计和预测,从而可以提前展开合理有效的资源配置。遗憾的是,尽管很多相关的机构都做了很大程度的努力,但出于隐私等问题的考虑,电信运营商依然不允许研究人员使用这部分数据。

3. 由社交媒体数据预测疫情 [4]

网络和社交媒体数据,对埃博拉病毒的预警,发挥了重大作用。HealthMap是一个利用大数据反应疫情的网站/应用,它使用一定的算法来抓取来自社交媒体网站、本地新闻和政府网站、传染病医师的社交网络和其他渠道的数据,用于探测和跟踪的疾病暴发。2014年3月14号,HealthMap通过自己的系统,预警了几内亚境内爆发的“神秘出血热”。2014年3月19号,HealthMap确认其为埃博拉病毒并对世界卫生组织发出警告,还给出了其在几内亚东南部热带雨林地区传播的粗略地点和路径。2014年3月23号,世界卫生组织正式宣布埃博拉疫情爆发并报告了第一个确诊案例。在这时,HealthMap已经追踪了在几内亚的29例确诊和29人死亡 ——所有数据和报告都来源于社交媒体和当地政府网站等。

HealthMap利用复杂而算法,过滤不相关的数据,结合领域内专家的帮助,再对相关的信息进行分类,确定疾病的类型并在地图上定位爆发地点。针对这次埃博拉疫情,在世界卫生组织宣布当天,HealthMap就上线了专门的页面,其中包含一个实时可交互的地图。全球网友可以通过这个可交互地图来免费了解疫情,其中包括具体的暴发地点和跟踪新的病例和死亡人数的信息。该系统还能够记录公众的关注度。用户可以在地图上放大特定的国家和地区,上面会标记主要病例报告。用户点击标记会指向爆发的新闻报道。同时,在地图底部的滚动条可以让你通过点击关键日期,以追踪病情进展。

这不是HealthMap第一次立功了。这个组织成立于2006年,由一组研究人员,流行病学家和软件开发人员组成的团队,利用网上各式各样的数据来源,监测和预测的疾病暴发,并实现对公共健康威胁的实时监控。他们汇集了各式不相干的数据源,包括网络新闻集中平台,目击者报告,专家策划讨论和官方验证的报告。除了实时和可交互的呈现数据,HealthMap也致力于预测疾病风险。曾经有报导称,该组织成功使用boosted regression tree等模型成功预测了SARS在中国境内爆发的死亡率。