时间是1948年,地点是中国东北。辽沈战役进入关键阶段。对于第四野战军司令员林彪来说,拿下锦州后的最重要目标就是打败前来增援的国民党新六军。林彪使用的方法就是每天听取“军情汇报”,由值班参谋员读出下属各个部队的当日战况和缴获情况。
那几乎是千篇一律的数据,异常枯燥。直到有一天,林彪突然发现,在胡家窝棚的一场两军遭遇战中,缴获短枪与长枪的比例比其他战斗略高,击毁小车与大车的比例比其他战斗略高,俘虏和击毙的军官与士兵的比例比其他战斗略高。
林彪由此断定,国民党军队的指挥所就在这附近,他下令立即对从这里逃走的败军进行追击。果然,部队很快就在附近抓住了国民党方面的指挥官廖耀湘,此成果揭开了中共军队辽沈战役胜利的序幕。
林彪当年的做法符合近年风行全球并深入改变世界的大数据的简单定义——从在别人看来枯燥乏味的数据中,发现有价值的信息,并将其转化为机会。
人类社会全面数字化引发了数据量爆炸式增长。人、资金、商品的流动都以数据化方式呈现。当前,每天在全球各行各业产生的数据已经足以填满超过2亿张DVD光盘——在这些看似杂乱无章的数据中,蕴藏着无限的金矿。
近年,伴随着存储能力、计算能力和传输能力的进步,人们开采这些金矿成为可能。数据不仅成为推动行业融合兼并、企业做大做强的战略性资产,更是体现一个国家综合国力的重要组成部分,成为陆、海、空权益之外的另一种国家核心资产。
当前,大数据时代无可争议地来临了。它源自全球数十年的技术积累,但仅用了最近两三年时间,便迅速渗透到各个行业。中国并不例外,百度、阿里巴巴、新浪微博、腾讯微信等最核心的资产便是大数据;众多行业、企业开始使用并利用大数据作出变革;中国6亿多网民的上网记录等正成为大数据的核心内容。
在财新记者采访的诸多业内人士看来,大数据来临的势头甚至比十几年前互联网泡沫时期还要迅猛。大数据更加实际、更容易落地、盈利模式更清晰。由大数据推动的行业变革,将会对整个世界格局产生颠覆性的影响。
而对于普通公众来说,虽处于大数据时代,但对大数据仍是陌生的。大数据在中国正在做些什么?一家企业或一个个人可以得到何种便利,又或可能遇到何种“坏处”?了解大数据,是解惑的开始。
“国家核心资产”
2012 年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。奥巴马政府将大数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,对数据的占有和控制将成为陆权、海权、空权之外的另一种国家核心资产。
美国的这一举动,是继1993年克林顿政府的“信息高速公路”计划后的又一次“狂飙突进”。在以中国为代表的新兴国家日益对美国的经济、政治影响力构成挑战的时候,通过大数据研究提高美国对数据资产的掌控能力,有助于美国抢占新的国际战略制高点。
但是什么是大数据,迄今为止,在产业界、学术界并没有形成一个公认的科学定义。上海软件产业促进中心主任唐全荣接受财新记者采访时说,他曾经和伦敦帝国理工大学一位华裔教授讨论,什么是大数据?而这位教授认为,能够处理的数据都不能称为大数据。
首先提出大数据概念的国际咨询公司麦肯锡,认为大数据就是大小超出常规数据库工具处理能力的数据。国际数据公司IDC则用“大体量(volume)”“多样性(variety)”“快速处理(velocity)”和“高价值(value)”来定义大数据。
正是由于大数据的这些特性,使得传统的数据分析、数据挖掘、数据处理手段都不再适用。社会需要为动态、高维、复杂的大数据建立形式化、结构化的描述方法,进而在此基础上发展大数据处理技术。
唐全荣说,跟云计算开始的时候一样,许多人在争论定义,而在IT基础设施从带宽到存储能力的发展让云计算真正走向应用的时候,就没有人再关心它的定义了。而大数据概念也是一样,它也是伴随着数据的处理、存储和分享能力的提升而出现的,从这个角度上看,大数据不仅是指需要处理的数据对象,也包括了处理的技术。