大数据是“原油”,不是“汽油”

在数据“爆炸”的时代,大数据常常被寄予厚望。到底,什么样的数据才算大数据,怎样才能用好大数据,传统统计学还有用武之地吗?清华大学统计学研究中心前不久成立,著名统计学家、哈佛大学终身教授刘军担任主任。日前,刘军做客人民日报、人民网《文化讲坛》,分享他的思考。

——编者

让大数据区别于数据的,是其海量积累、高增长率和多样性

什么是数据?数据(data)在拉丁文里是“已知”的意思,在英文中的一个解释是“一组事实的集合,从中可以分析出结论”。笼统地说,凡是用某种载体记录下来的、能反映自然界和人类社会某种信息的,就可称之为数据。古人“结绳记事”,打了结的绳子就是数据。步入现代社会,信息的种类和数量越来越丰富,载体也越来越多。数字是数据,文字是数据,图像、音频、视频等都是数据。

什么是大数据呢?量的增多,是人们对大数据的第一个认识。随着科技发展,各个领域的数据量都在迅猛增长。有研究发现,近年来,数字数据的数量每3年多就会翻一番。

大数据区别于数据,还在于数据的多样性。正如高德纳咨询公司研究报告指出的,数据的爆炸是三维的、立体的。所谓的三维,除了指数据量快速增大外,还指数据增长速度的加快,以及数据的多样性,即数据的来源、种类不断增加。

从数据到大数据,不仅是量的积累,更是质的飞跃。海量的、不同来源、不同形式、包含不同信息的数据可以容易地被整合、分析,原本孤立的数据变得互相联通。这使得人们通过数据分析,能发现小数据时代很难发现的新知识,创造新的价值。

通过数据来研究规律、发现规律,贯穿了人类社会发展的始终。人类科学发展史上的不少进步都和数据采集分析直接相关,例如现代医学流行病学的开端。伦敦1854年发生了大规模的霍乱,很长时间没有办法控制。一位医师用标点地图的方法研究了当地水井分布和霍乱患者分布之间的关系,发现有一口水井周围,霍乱患病率明显较高,借此找到了霍乱暴发的原因:一口被污染的水井。关闭这口水井之后,霍乱的发病率明显下降。这种方法,充分展示了数据的力量。

本质上说,许多科学活动都是数据挖掘,不是从预先设定好的理论或者原理出发,通过演绎来研究问题,而是从数据本身出发通过归纳来总结规律。近现代以来,随着我们面临的问题变得越来越复杂,通过演绎的方式来研究问题常常变得很困难。这就使得数据归纳的方法变得越来越重要,数据的重要性也越发凸显出来。

大数据是非竞争性资源,有助于政府科学决策、商家精准营销

大数据时代,数据的重要作用更加凸显,许多国家都把大数据提升到国家战略的高度。

政府合理利用大数据,引导决策的将是基于实证的事实,政府会更有预见性、更加负责、更加开放。中国古代治国就已经有重数据的思想,如商鞅提出,“强国知十三数……欲强国,不知国十三数,地虽利,民虽众,国愈弱至削”。大数据时代,循“数”治国将更加有效。小数据时代,政府做决策更多依凭经验和局部数据,难免头痛医头、脚痛医脚。比如,交通堵塞就多修路。大数据时代,政府做决策能够从粗放型转向集约型。路堵了,利用大数据分析,可以得知哪一时间、哪一地段最容易堵,或在这一地段附近多修路,或提前预警引导居民合理安排出行,实现对交通流的最佳配置和控制,改善交通。

对于商家来说,大数据使精准营销成为可能。一个有趣的故事,是沃尔玛超市的“啤酒、尿布”现象。沃尔玛超市分析销售数据时发现,顾客消费单上和尿布一起出现次数最多的商品,竟然是啤酒。跟踪调查后发现,有不少年轻爸爸会在买尿布时,顺便买些啤酒喝。沃尔玛发现这一规律后,搭配促销啤酒、尿布,销量大幅增加。大数据时代,每个人都会“自发地”提供数据。我们的各种行为,如点击网页、使用手机、刷卡消费、观看电视、坐地铁出行、驾驶汽车,都会生成数据并被记录下来,我们的性别、职业、喜好、消费能力等信息,都会被商家从中挖掘出来,以分析商机。

大数据也将使个人受益。从生物学、医学上讲,以前生物学家只是通过对单个或几个基因的操控来观察其对生物体的影响,很难发现整体的关联。现在由于技术的发展,可以分析很多,如遗传信息、全体基因的表达量信息、蛋白质族谱信息、全基因组甲基化信息、表观遗传信息等。同时还有个人健康指标、病历、药物反应等数据。如果真能达成生物学上多维多向数据的有机融合,就能够把个人完整地描述出来,从而实现精准医疗的目的。