2014年时代杂志的年度人物称号由埃博拉患者护理人员获得,在向他们致敬的同时,让我们回顾一下去年这场饱受关注并且持续到今年的全球性传染病事件。
2014年继马航客机失联事件之后,始发于西非几内亚的埃博拉病毒疫情经由传统媒体和数字媒体走入全球公众视野。据世界卫生组织提供的资料[1]显示,埃博拉病毒最早在1976年同时爆发的两起疫情中首次出现的,一起在苏丹,另一起在刚果民主共和国。后者发生在位于埃博拉河附近的一处村庄,该病由此得名。该次埃博拉疫情在刚果民主共和国爆发的是扎伊尔标准亚种,累计318人患病,280人死亡,致死率88%;在苏丹爆发的则是苏丹亚种,累计284人患病,151人死亡,致死率53%;另外还有雷斯顿、科特迪瓦、邦地布优等三个亚种,对动物和人类的危害相对温和。据悉,目前正在肆虐全球的埃博拉病毒,正是致死率最高的扎伊尔标准亚种。
埃博拉病毒疫情时隔几年便爆发一次,不过之前每次疫情规模都比较小,主要集中在一个地区爆发,并且局限在中非。特别地,刚果民众共和国史上曾多次爆发埃博拉疫情。
2014年3月开始爆发的埃博拉病毒疫情的爆发规模引起了国际社会的关注,并且被世界卫生组织列为“国际间关注的公共卫生紧急事件”(历史第三次)。首先,这次疫情涉及到了多个国家和地区。全境范围受影响的国家包括几内亚、利比里亚和塞拉利昂。部分领土受影响的地区包括马里的卡伊,西班牙的马德里,美国的达拉斯、德克萨斯州和纽约市,英国苏格兰地区的格拉斯哥市,尼日利亚的拉各斯哈科特港,以及塞内加尔的达喀尔。其次,这次埃博拉病毒疫情出现的病例和死亡数字超过了所有其它疫情的总和。截止2014年12月31号,累计20206人患病,7905人死亡[2]。并且数字还在不断增加。而所有的埃博拉护理者,则被美国时代周刊选为2014年的年度人物。
回望过去几十年,人类无疑在信息、科技、生物、医疗等领域取得了今非昔比的成果。反观2014年埃博拉病毒疫情的爆发、传播、媒体报导、控制,我们不禁开始思考在这个大数据时代,数据、统计、理性思考、批判思维能为人类对疫情防控带来什么好处?这篇文章试图从三个角度去阐述大数据如何与疫情防控紧密相连。本文第一部分讨论了如何通过交通数据、移动通信数据与社交媒体数据等非传统公共卫生数据来测算乃至预测疫情风险;第二部分重点关注死亡率的不同估算方法带来的对于疫情风险的不同认知;第三部分聚焦在埃博拉病毒疫情的治疗和防控支出数据。
一、数据驱动的疫情预测
1. 由交通数据预测疫情[3]
全球人口流动的日趋频繁使某区域爆发的疫情会给全球其他国家和地区带来潜在的疫情风险,于是如何对此类疫情风险进行有效的预测和评估自然就成了一个值得探究的课题。本次埃博拉爆发的一个重大特征即是,疫情通过交通运输突破国境,在源爆发地几内亚之外多国肆虐。对于国际间的人口流动,飞机显然是最主要的交通方式,因此对机场人口流动数据的统计分析也就成了重中之重。
事实上机场数据也早已被很多领域的研究者们所重视,基于此类数据分析建模的案例也已屡见不鲜。对于埃博拉疫情传播的分析,也有研究人员给出了他们的方法,其中一种就是通过估计引入风险(import risk)的方法来量化埃博拉对某一地区可能造成的影响。
对于引入风险的估计,最核心的问题便是如何通过动态模型或是统计模型将风险量化。这里介绍一种比较直观简介的估计方式,首先把引入风险分为相对引入风险(relative import risk)和绝对引入风险(absolute import risk)。不妨假设X为疫情爆发区域的某个机场,而Y则是世界上任意一块区域,那么我们可以通过条件概率的形式来定义相对引入风险,即P(Y|X)。而对于绝对引入风险我们则可以通过联合概率来定义,即P(X,Y)=P(Y|X)P(X),这里需要注意的是P(X)往往远小于P(Y|X),因此P(X,Y)也会远远小于P(Y|X)。在实际应用中,相对风险较绝对风险而言更有价值,其主要原因在于P(X)的估计在大部分时间都难以实现,事实上P(X)的估计需要依赖于大量的参数来描述X所在地区的各类因素,而绝对风险的估计却恰恰依赖于P(X)。与此相反,相对风险的计算则仅仅需要各机场人口流动的数据即可,即无需考虑地区本身的相关因素。