大数据是一种思维方式革命

  大数据的本质  

首先我们必须承认世界的不确定性,这样我们就不会采用确定性的思维方式去面对一个不确定性的世界。当我们了解到信息或者说数据能够消除不确定性之后,便能理解为什么大数据的出现能够解决那些智能的问题,因为很多智能问题从根本上来讲无非是消除不确定性的问题。对于前面提到的大数据的三个特征,即数据量大、多维度和完备性。在这个基础之上,我们就能够讲清楚大数据的本质。  

先谈谈数据量的问题。在过去,由于数据量不够,即使使用了数据,依然不足以消除不确定性,因此数据的作用其实很有限,很多人忽视它的重要性是必然的。在那种情况下,哪个领域先积攒下足够多的数据,它的研究进展就显得快一些。具体到机器智能方面,语音识别是最早获得比较多数据的领域,因此数据驱动的方法从这个领域产生也就不足为奇了。  

关于大数据多维度的重要性问题,可以从两个角度来看待它。第一个视角是「互信息」,为了获得相关性通常需要多个维度的信息。比如我们要统计「央行调整利息」和「股市波动」的相关性,只有历史上央行调整利息一个维度的信息显然是不够的,需要上述两个维度的信息同时出现。第二个视角是所谓的「交叉验证」,我们不妨看这样一个例子:夏天的时候,如果我们感觉很闷热,就知道可能要下雨了。也就是说,「空气湿度较高」和「24 小时内要下雨」之间的互信息较大。但是,这件事并非很确定,因为有些时候湿度大却没有下雨。不过,如果结合气压信息、云图信息等其他维度的信息,也能验证「24 小时内要下雨」这件事,那么预测的准确性就要大很多。

最后,我们从信息论的角度来看看数据完备性的重要性。在大数据时代,在某个领域里获得数据的完备性还是可能的。比如在过去把全国所有人的面孔收集全是一件不可想象的事情,但是今天这件事情完全能做到。当数据的完备性具备了之后,就相当于训练模型的数据集合和使用这个模型的测试集合是同一个集合,或者是高度重复的。在这种情况下,就不会出现覆盖不了很多小概率事件的灾难。  

这样数据驱动才具有普遍性,而不再是时灵时不灵的方法论。  

由此可见,大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。虽然人类使用信息由来已久,但是到了大数据时代,量变带来质变,以至于人们忽然发现,采用信息论的思维方式可以让过去很多难题迎刃而解。    

 互联网公司的争夺和大数据应用    

今天,各个搜索引擎都有一个度量用户点击数据和搜索结果相关性的模型,通常被称为「点击模型」。随着数据量的积累,点击模型对搜索结果排名的预测越来越准确,它的重要性也越来越大。今天,它在搜索排序中至少占 70%~80% 的权重,也就是说搜索算法中其他所有的因素加起来都不如它重要。换句话说,在今天的搜索引擎中,因果关系已经没有数据的相关性重要了。    

当然,点击模型的准确性取决于数据量的大小。对于常见的搜索,比如「虚拟现实」,积累足够多的用户点击数据并不需要太长的时间。但是,对于那些不太常见的搜索(通常也被称为长尾搜索),比如「毕加索早期作品介绍」,需要很长的时间才能收集到「足够多的数据」来训练模型。一个搜索引擎使用的时间越长,数据的积累就越充分,对于这些长尾搜索就做得越准确。微软的搜索引擎在很长的时间里做不过 Google 的主要原因并不在于算法本身,而是因为缺乏数据。同样的道理,在中国,搜狗等小规模的搜索引擎相对百度最大的劣势也在于数据量上。    

当整个搜索行业都意识到点击数据的重要性后,这个市场上的竞争就从技术竞争变成了数据竞争。这时,各公司的商业策略和产品策略就都围绕着获取数据、建立相关性而开展了。后进入搜索市场的公司要想不坐以待毙,唯一的办法就是快速获得数据。    

比如微软通过接手雅虎的搜索业务,将必应的搜索量从原来 Google 的 10% 左右陡然提升到 Google 的 20%?30%,点击模型估计得准确了许多,搜索质量迅速提高。但是即使做到这一点还是不够的,因此一些公司想出了更激进的办法,通过搜索条(Toolbar)、浏览器甚至输入法来收集用户的点击行为。这种办法的好处在于它不仅可以收集到用户使用该公司搜索引擎本身的点击数据,而且还能收集用户使用其他搜索引擎的数据,比如微软通过旧浏览器收集用户使用 Google 搜索时的点击情况。