大数据是一种思维方式革命

计算机在解决各种智能问题上的进步幅度并不大,但是十几年量的积累,最终促成了质变。

吴军

  这个时代属于大数据    

简单地讲,当时无论是做语音识别、机器翻译、图像识别,还是自然语言理解的学者,分成了界限很明确的两派,一派坚持采用传统的人工智能方法解决问题,简单来讲就是模仿人,另一派在倡导数据驱动方法。这两派在不同的领域力量不一样,在语音识别和自然语言理解领域,提倡数据驱动的派比较快地占了上风;而在图像识别和机器翻译方面,在较长时间里,数据驱动这一派处于下风。    

这里面主要的原因是,在图像识别和机器翻译领域,过去的数据量非常少,而这种数据的积累非常困难。图像识别就不用讲了,在互联网出现之前,没有一个实验室有上百万张图片。在机器翻译领域,所需要的数据除了一般的文本数据,还需要大量的双语(甚至是多语种)对照的数据,而在互联网出现之前,除了《圣经》和少量联合国文件,再也找不到类似的数据了。  

在 20 世纪 90 年代互联网兴起之后,数据的获取变得非常容易。从 1994 年到 2004 年的 10 年里,语音识别的错误率减少了一半,而机器翻译的准确性提高了一倍,其中 20% 左右的贡献来自方法的改进,80% 则来自数据量的提升。虽然在每一年,计算机在解决各种智能问题上的进步幅度并不大,但是十几年量的积累,最终促成了质变。

数据驱动方法从 20 世纪 70 年代开始起步,在八九十年代得到缓慢但稳步的发展。进入 21 世纪后,由于互联网的出现,使得可用的数据量剧增,数据驱动方法的优势越来越明显,最终完成了从量变到质变的飞跃。如今很多需要类似人类智能才能做的事情,计算机已经可以胜任了,这得益于数据量的增加。    

全世界各个领域数据不断向外扩展,渐渐形成了另外一个特点,那就是很多数据开始出现交叉,各个维度的数据从点和线渐渐连成了网,或者说,数据之间的关联性极大地增强,在这样的背景下,就出现了大数据。  

  智能手机和互联网将继续改变世界  

大数据的时效性其实不是必需的,但是有了时效性可以做到很多过去做不到的事情,城市的智能交通管理便是一个例子。在智能手机和智能汽车(特斯拉等)出现之前,世界上的很多大城市虽然都有交通管理(或者控制)中心,但是它们能够得到的交通路况信息最快也有 20 分钟滞后。如果没有能够跟踪足够多的人出行情况的实时信息的工具,一个城市即使部署再多的采样观察点,再频繁地报告各种交通事故和拥堵的情况,整体交通路况信息的实时性也不会比 2007 年有多大改进。  

但是,在能够定位的智能手机出现后,这种情况得到了根本的改变。由于智能手机足够普及并且大部分用户开放了他们的实时位置信息(符合大数据的完备性),使得做地图服务的公司,比如 Google 或者百度,有可能实时地得到任何一个人口密度较大的城市的人员流动信息,并且根据其流动的速度和所在的位置,很容易区分步行的人群和行进的汽车。  

由于收集信息的公司和提供地图服务的公司是一家,因此从数据采集、数据处理,到信息发布中间的延时微乎其微,所提供的交通路况信息要及时得多。使用过 Google 地图服务或者百度地图服务的人,对比六七年前,都很明显地感到了其中的差别。当然,更及时的信息可以通过分析历史数据来预测。一些科研小组和公司的研发部门,已经开始利用一个城市交通状况的历史数据,结合实时数据,预测一段时间以内(比如一个小时)该城市各条道路可能出现的交通状况,并且帮助出行者规划最好的出行路线。    

仔细推敲英语中 bigdata 这种说法,我们不得不承认这个提法非常准确,它最重要的是传递了一种信息——大数据是一种思维方式的改变。现在的数据量相比过去大了很多,量变带来了质变,思维方式、做事情的方法就应该和以往有所不同。这其实是帮助我们理解大数据概念的一把钥匙。在有大数据之前,计算机并不擅长解决需要人类智能来解决的问题,但是今天这些问题换个思路就可以解决了,其核心就是变智能问题为数据问题。由此,全世界开始了新的一轮技术革命——智能革命。