关于大数据,我有几点看法:第一,由于大数据刚刚热起来,所以不必着急下结论。当年IT刚刚发展时,研究增长问题的权威罗伯特·索洛(Robert Solow)教授提出了一个“索洛悖论”:“我们到处都看得见计算机,就是在生产率统计方面却看不见。”直到过了15年,到2002年时,他才公开承认说:“我现在发现IT可能对生产率是有贡献的。”对大数据的研究,可能也需要一个很长的时间才能确认价值所在。
第二,可能性不等于可行性。现在有种观点:“到底是大数据还是大忽悠?什么都讲是大数据。”其实是说现在讲的或者设想的都是“可能性”而不是“可行性”。“可行性”要到什么时间?现在还看不出来。它需要合理的制度安排,还需要企业、公司不断地进行商业实践、不断试错,以及科研工作者对大数据分析技术的不断改进。
第三,目前的研究主要还是提问阶段,而不是解决问题。当然,如果能提出好的问题,这也算是一个研究的好成果。
最后,本文尽量多摆事实、少讲道理;多提供一点素材,少提供一点观点。
一、大数据的产生、内涵及争议
首先,大数据何来?实际上大数据一直存在,存在于不同的地方。比如每个人都包涵着很多数据:身高、体重等等,包括观点、思想。但是过去没有互联网,所以这些数据很难得到应用。数据分析在很早就存在。春秋时孙膑就曾用对方营地做灶的数量来判断对方军队的数量,从而指导打仗。不过,当时这样的数据非常少,有这个利用能力的人才会成为时代的智者。
然而,现在的情况不太一样了。互联网应用以来,从2005年开始,数据在不断地增长,到2010年以后基本上是一个指数增长的过程,到2013年时已经超过4个ZB,每年的增长率超过50%。这就是一个从量变到质变的过程。
之前为什么不说大数据呢?这是个相对的概念,到某一天它的增长速度突然特别快的时候,“大”的概念就蹦出来了。所以它其实不是一个严格的学术概念,只是因为在量变的过程中大家感觉到这种质变,或者感觉它里面有价值。
主要的数据来源
主要的数据来源,总的来讲有两个方面:
第一,物的数据。
其中比较有代表性的,就是由传感器组成的物联网,这个概念是IBM(189.64, 0.49, 0.26%)在2009年提出来的一种商业模式,当时叫“智慧地球”。就是把传感器装到不同的物体上面,然后展现它的各种数据,比如温度、湿度、压力等等。物联网这几年的增长速度比较快,能达到20%-30%的增长速度,物的数据在不断地增加。
第二,人的数据。
其中最典型的是移动互联网的发展。近年来移动互联网占整个互联网流量的比例越来越高,移动端尤其是用户自己发送数据的比例大大提高了,这也是大数据非常重要的一个来源。通过这些移动端的数据,就可以判断一个人的职业、兴趣、品质或者其每时每刻的位置,就是说,靠这些数据能很精确地找到每个人的各种情况。
数据为什么会突然大量增加?一是IT成本下降,此外,跟这两年云计算使用率的上升有很大的关系。从亚马逊(313.65, 6.59, 2.15%)弹性云存储的文件量增长情况可见,从2006年到2013年增加的量是非常显著的,到2013年二季度时已经有2万亿数量文件存储在弹性云上。
那么,云计算为什么会降低IT成本?基于我们之前一年的实践研究数据可知,首先,从需求方来看,过去购买一些硬件包括服务器、电脑等等,成本比较昂贵。但是云计算系统把IT资源集中起来后,以租用的方式来使用,就比买它的价格便宜很多。从供给的角度来看,当把所有的IT资源集中起来以后,会有非常明显的规模经济,因为同时运营很多台服务器(当然这是基于技术),其成本会显著下降。
这里还有一个范围经济的概念:当把IT资源集中起来以后,不单有规模经济,还经营了多种的资源。比如说,搜索可能需要占很多CPU的计算资源,但是磁盘资源可能没那么多;电子邮件可能相反。当它集中运用的时候,可以同时得到这两种效率。所以,这也是云计算对IT成本下降的一个贡献。