胡善庆:大数据改变国家管理方式

在人类历史上,从来没有哪个时代出现过如此规模巨大的数据爆炸。如同互联网初生时的景象,大数据(Big Data)浪潮如今汹涌来袭,已成为在全球范围启动透明政府、加速企业创新、引领社会变革的利器。

今年初,美国总统奥巴马宣布以2 亿美元投资大数据领域,美国政府将数据定义为“未来的新石油”。

从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。掌握这一技术已经成为一种新的竞争优势,一类新的经济资产。之于商业,它就如企业巨轮远航的一片蓝海,而它又不只是企业的“专利”;之于政府,应用好大数据,是构建高效服务型政府的关键。

“统计学在最近几年发展非常快,今后也将更多地应用于社会的各个领域,大数据时代即将来临。”胡善庆告诉《支点》记者。目前在美国乔治华盛顿大学担任客座教授的胡善庆,曾于2004 年到2012 年间担任美国统计局和商务部的高级顾问。

小时候跟随父母移民美国的胡善庆,对于统计学有着天生爱好。在乔治华盛顿大学取得数理统计学博士学位后,他便进入美国政府部门工作。2000年,他被任命为能源部首任国家申诉专员,此前还曾担任联邦农业部民权司副司长,负责管理信息科技以及申诉等事务。如今,身为著名统计学家的胡善庆,同时也是美国“百人会”调研委员会主席。

作为一个快速成长的经济大国,中国的统计数字也日益受到重视,并对世界具有重大影响力。“我是希望能有机会到中国多走走,增长见识。兴趣所在是利用学历经验,为社团学术界提供扶助创新机会。”胡善庆说,中国有非常广阔的大数据应用市场。

以下,是《支点》记者与胡善庆博士的对话。

传统数据统计模式的终结

《支点》:如今在数据大爆炸时代,传统的统计方法存在哪些局限性?

胡善庆:上个世纪,各国人口和经济的测量与推论主要采用的是传统的普查以及随机抽样调查的方式,这两种数据统计方法对各国政策制定和信息传递都是非常重要的。

但就普查而言,虽然过去许多世纪都证明了它的重要性,不过它确实存在一些众所周知的实际弱点。因为,人类活动是连续和动态的,但普查只能为一个指定的普查日子或短暂时期提供一个比较全面的速映,更多的时间被花费在数据处理、分析及报告结果上。通常普查结果在被宣布时,它们已经过时了。

在中国进行人口调查,其复杂程度难以想象。抽样数据的获得需要同31个省市区、4800个村庄、4420个镇区和2133个城区中的150万人面谈才行。

同时,大部分国家,甚至发达国家,都面对严格的财政预算限制。现在的高费用、低回收的普查和调查办法否定了它们新引进或扩张一贯做法的可能性。全球普查和调查反应率下降亦把问题搞得复杂。比如,在美国,尽管多方计划和努力,其2010年的普查参与率仅仅达到2000 年的74%。到了个人面谈的地步,普查平均费用升到每户56 美元,超过最初的邮寄费用的100 倍。

在数据大爆炸时代,国家统计局面对的真实挑战是令人畏惧的,20 世纪的统计系统不能满足21世纪的需求。应用政府统计的网民正在快速地在数字和广度方面增加。他们需要更广泛、更动态、更及时的数据,并能容易地存取和了解,但现有方法必需的资源和时间都不可得或不能负担。

《支点》:与之前相比,21世纪的统计系统发生了怎样的变化?“大数据”对政府工作和企业生产带来了哪些改变?

胡善庆:根据南加州大学的一项研究,世界电子储藏数量在2002 年第一次超越了非电子储藏数量。在2007 年,地球上至少94% 的所有资讯都以电子形式储藏。于是,数据可以没有抽取样品的需要或考虑,可将其完整地电子化直接输入机器处理和计算。

电子储藏的快速发展也带来了21 世纪统计系统和方法的改变,纵向数据的研究成为可能。所谓纵向数据,是对同一单位( 例如一个工人、一位学生、一个家庭、一门生意、一所学校或一座医院) 在时间上重复观察所得的数据。它能在个体水平提供独特的底线和变化计量。

大数据是一个有关非常大量电子数据的新用词,它很可能不是根据传统统计系统的结构和概率原则而进行收集的。行政记录、社会媒体、条码和电波扫描仪、运输感应器、能源和环境监视器、在线交易、流影像和人造卫星图像,这些都是大数据来源和爆发生长的因素。

私营企业在生产大数据已领先起步,组合政府的统计,发展数据挖掘技术和方法来识别潜在的消费者、扩张市场、测试新产品、并抽取新讯息以作其他市场及客户研究。有些情况下,他们甚至可向传统的政府功能挑战。例如,一些社会媒体搜索的言词被用来做感冒的指标,它的表现不比公共卫生机关的指标差,在及时方面也更胜一筹。

尽管政府统计在大数据汪洋中的分量逐渐减少,但它仍然拥有其支持全球化的经济体制及解决不断扩张的社会需求的独特重要。然而,当我们活在可以数秒钟内上网搜索展示百万计的结果和国际股票市场日夜即时报道成交数据的时代,要等多月甚至多年才可收集、处理、发放在地理、企业与人口都有限制的静态结果将失去它的意义。