中国科学院院士怀进鹏:大数据及大数据的科学与技术问题

5. 大数据带来社交模式及思维方式的改变

从过去来看,我们都知道互联网改变了我们的交流方式,越年轻的人越适应这种交流的习惯,发个邮件、微博、微信讨论一下。大数据是否会改变我们的经济社会生活?我前面提到这样一些例子。又有人讲,有了百度或谷歌,可以让我们熟悉用户的浏览行为。有了淘宝网和亚马逊,我们可以了解用户的购物习惯。有了微博这样的内容,对于思维习惯和阶段性社会的认识会有不同的反映。这是改变我们生活的一个方面。

从另一个角度来说,是不是大数据有可能会改变科学研究的途径?昨天李院士做了非常好的报告。过去研究有三种模式,理论研究、实验验证加仿真或者是计算为主。现在开始有人提出是不是从过去以计算为主的到数据密集型的科学发现。大数据是否能够成为人类在科学研究领域的新方式或者是新途径?如果这种方式可以在今后的发展中有所利用,我们的思维方式会发生变化:

第一种,人理解由于数据外部的4V特征,使得我们在大数据处理的研究手段和方法观念上有所变化,比如说数据量大。过去统计特征的方法不完全适用,因为它需要均匀。就像炒菜一样,我们把容易成熟、不容易成熟的按照优先次序放入。假设锅受热均匀,当你觉得一盘菜快熟的时候,可能用尝一尝的办法,尝一尝就是采样的概念,你估计它熟了,然后上桌。除非你经验非常强,估计3、5分钟,可以通过看颜色的方式判断。我们的假定,采样是重要的,一切是均匀的。

第二种就是过去从精确到非精确,当你想买一双球鞋,你未必跑遍北京市所有的鞋店。也就是说我们需要的不完全是精确计算、比较价格、式样,各方面全部走过了以后才能做决定。而是根据你对目标和趋势的判断所下的结论。

第三种就是从因果到关联关系。刚才讲到的谷歌公司发现的流感,他们可能不知起所以然,但他们把这种趋势和可能的相关性建立起来。就像一个名医一样,如果看到药典来配方支持病人的解决方案的话,是一种方式。但很多是基于他的经验,未必完全知道为什么同样的症状对他要配这样的药。

在这些背景下,大数据处理的思维模式可能发生变化,是否也会引导我们研究的变化?如何处理大数据,就变成一个重要的问题。因此,从上面的讨论,我个人觉得外显的大数据的4V特征可能要进行计算模式的变化,究竟会有什么影响?