中国科学院院士怀进鹏:大数据及大数据的科学与技术问题

 

  • 我觉得就是所谓的近似性,从4V到3I,以数据的计算来看。近似性就是传统的精确处理不再适用,允许在解的一定范围区间内追求近似解。就是我前面提到的,当你买一双鞋的时候,不会跑遍北京所有的鞋店,而是根据你对一定目标的理解和趋势的判断。
  • 增量性。数据是源源不断的动态的变化,传统是有一个封闭的假设,所有数据都齐全了再计算。因此,在大数据动态变化特征当中需要有增量计算。同时,李院士昨天提到,过去的计算是系统还原法,给定问题A,把A变成A1一直到AN。A1到AN的有效解决,代表A的解决。现在完全变化了,因为问题单元的数据不足,需要偏差处理。第二,处理问题的方式是要采取归纳的方式,因为多数据之间的隐含关系很重要。就像微博,这里用音频,那边用视频,还有用文字,同样的表达方式还有所不同,跨越不同的区域,甚至是完全无关的区域。因此,如何有效地归纳,也是一个重要的问题。

 

从大数据到大数据的计算,我们把外部4V的数据表象特征理解3I的计算属性,这是我对这个问题的基本认识。

大数据 vs. 算法

为什么说研究大数据要先从计算的角度来看?因为我们都清楚计算是计算机科学的本质。我们实际上做计算机的,就是一直在解一个公式G=F(X)。F就是算法或者软件程序,X就是输入和数据,G就是一个程序给定的输入,处理完以后相应的结果。