当然,百度只公布了一点点大家感兴趣的结果。它完全可以从这些数据中得到更多有价值的统计结果。比如,它很容易得到不同年龄人、性别和文化背景(这些很容易挖掘出来)的饮食习惯,不同生活习惯的人(比如正常作息的、夜猫子们、经常出差的或者不爱运动的等等)的饮食习惯等等。如果百度的数据收集的时间跨度足够长,它还可以看出不同地区人饮食习惯的变化,尤其是在不同经济发展阶段饮食习惯的改变。而这些看似很简单的问题,比如饮食习惯的变化,没有百度知道的大数据,还真难得到。这就是大数据多维度的威力。
大数据的第二个特点在于它的完备性。为了说明这一点,让我们再来看一个真实的案例。从1932年开始,盖洛普一直在对美国总统选举进行预测,几十年来它也在不断地改进采样的方法,力求使得统计准确,但是在过去的几十年里,它对美国大选结果的预测可以讲是大局(全国)尚准确,但是细节(每一个州)常常出错。因为再好的采样方法,也有考虑不周全之处。
但是到了2012年总统选举时,这种“永远预测不准”的情况得到了改变。一位名不见经传的统计学家Nate Silver通过对互联网网上能够取得的各种大量的数据(包括社交网络上用户发表的信息、新闻信息和其它网络信息),进行大数据分析,准确地预测了全部50个州的选举结果,而在历史上,盖洛普从来没有做的这一点。当然,有人可能会问,这个结果是否是蒙的?这个可能性或许存在,但是只有一千万亿分之一,因此可以认为这是大数据分析的结果。在这个例子中,Silver并没有什么好的采样方法,只是收集的数据很完备。大数据的完备性,不仅有用,甚至有点可怕。
图4. Nate Silver对2012年美国大选的预测(左)和实际结果(右)的对比(红色的地方表示共和党获胜的州,蓝色的表示民主党获胜的州)
数据的完备性的作用远比准确预测一个总统选举大得多,Google无人驾驶汽车便是一个很好的例子。首先,无人驾驶汽车可以算是一个机器人,这点应该没有疑问,因为它能像人一样对各种随机突发性事件快速地做出判断。在这个领域Google只花了六年时间就做到了全世界学术界几十年没有做到的事情。在2004年,经济学家们还认为司机是计算机难以取代人的几个行业之一。当然,他们不是凭空得出这个结论的,除了分析了技术上和心理上的难度外,还参考了当年DARPA组织的自动驾驶汽车拉力赛的结果--当时排名第一的汽车花了几小时才开出8英里,然后就抛锚了。但是,仅仅过了6年后,2010年Google的自动驾驶汽车不仅研制出来了,而且已经在高速公路和繁华的市区行驶了14万英里,没有出一次事故。
为什么Google能在不到六年的时间里做到这一点呢?最根本的原因是它的思维方式和以往的科学家们都不同--它把这个机器人的问题变成了一个大数据的问题。首先,自动驾驶汽车项目是Google街景项目的延伸,Google自动驾驶汽车只能去它“扫过街”的地方,而在行驶到这些地方时,它对周围的环境是非常了解的,这就是大数据完备性的威力。而过去那些研究所里研制的自动驾驶汽车,每到一处都要临时地识别目标,这是人思维的方式。其次,Google的自动驾驶汽车上面装了十几个传感器,每秒钟几十次的各种扫描,这不仅超过了人所谓的“眼观六路、耳听八方”,而且积攒下来的大量的数据,对各地的路况,以及不同交通状况下车辆行驶的模式有准确的了解,计算机学习这些“经验”的速度则远远比人快得多,这是大数据多维度的优势。这两点是过去学术界所不具备的条件,依靠它们,Google才能在非常短的时间里实现汽车的自动驾驶。
大数据的第三个特征在它的英文提法“Big Data”这个词当中体现的很清楚。请注意,这里使用的是Big Data,而不是Large Data。Big和Large这两个单词有什么区别呢,Big更主要是强调抽象意义上的大,而Large是强调数量(或者尺寸)大,比如大桌子Large Table。Big Data的提法,不仅表示大的数据量,更重要地是强调思维方式的不同。这种以数据为主的新的做法,在某种程度上颠覆了我们长期以来在科学和工程上的方法论。在过去,我们强调做一件事情的因果关系,通过前提和假设,推导出结果。但是在大数据时代,由于数据的完备性,我们常常是先知道结论,再找原因(甚至不去找原因),那么我们是否愿意去接受这样的工作方式。事实上,在一些具有大数据的IT公司里,包括Google,阿里巴巴等,今天已经是按照这种思维方式做事情了。Google的产品比竞争对手稍微好一点,主要不是靠技术,而是靠它的数据比对手更完备,同时它愿意用数据来解决问题。阿里巴巴的小额贷款能做起来(而其它商业银行做不到),其实就是对大数据思维的一种诠释。这是一种我们以前完全没见过的新的思维方式,一种新的方法论。