李德毅院士:大数据挖掘带动的变迁

路易斯提出能不能把129年的报纸扫描,把图片碎片化,变成检验码,让大家去识别,这样一来,如果每天有两亿个检验码,从而一下子就把129年的纽约时报实现数字化,这就是群体智能。有些事情计算机做得很好,人做不好,有些事情人做得很好,很简单,计算机做不好,怎样把这两个优势加在一起呢?于是就有了群体智能。

所以云计算支撑大数据挖掘要发现价值的话,我们认为云计算本来就是基于互联网的大众参与计算模式,其计算资源是动态的,可收缩的,被虚拟化的,而且以服务的方式提供。 产生摆脱了传统的胖配置带来的系统升级开柙,更加简洁、更加灵活多样、个性化,手机、游戏机、数码相机、电视机差别细微,出现更多iCloud产品,界面人性化个性化,可成为大数据挖掘的终端。

挖掘员支撑各种各样的大数据应用,如果我们有数据收集中心、存储中心、计算中心、服务中心,一定还有数据挖掘中心,这样一来,我们就可以实现支撑大数据的及时应用和价值的及时发现。

云计算产生的众包思想已经被大家接受,无论是电影行业,还是搜狗的输入方法,还是摄影照片共享,还是T恤衫的设计购买,说明众包是怎么样完成生产购买的。因此我们可以设想,在互联网环境下,利用人的认知和大众间的交互,融合计算机存储对大数据挖掘,形成群体智能,这样一来,我们提出一个新的概念,叫众挖,大家来挖。

用户无需关心数据的形态,无需关心数据的获取位置、结构模式、存储方式以及分析过程,得到的就是及时的足够满意的挖掘结果,MaaS,谁是挖掘时代的谷歌呢?

大数据时代技术的有效性要比科学的完整性更为重要,如果说科学是解决形而上的问题,技术是解决行而下的问题的话,我们回顾一百年来的历史,在上世纪的后半世纪,我们有了1930年的图灵模型,1970年我们有了物理的计算机,80年代,我们开始了关系数据库和产业,后来我们有了专家系统,在前50年大概都是科学引领技术发展,科学是技术先导。现在情况发生了变化,云计算的形而上是什么呢?有人说是网络科学,大数据的形而上是什么呢?有人说是数据科学。

数据结构的形式化约束由强到弱的演变非常明显,70年代是强约束,后面的Web计算是半结构化约束,到现在我们用的这些微机、手机、物联网传感器,越来越弱约束,弱到什么程度?弱到我们这个社区文化的常识就可以了,就好象说我们在城市里交通行人靠右走。

所以,我的基本结论是大数据标志一个新时代的到来,这个时代的特征不只是追求丰富的物质资源,也不只是无所不在的互联网带来方便的多样化的信息服务,同时还包含区别于物质的数据资源的价值挖掘,以及价值转换,虚拟世界的信息价值挖掘导致更加精确的控制物理世界的物质和能量,以及由大数据挖掘带来的精神和文化方面的崭新现象。

于是,我们可以看一看从三四十年前的计算时代到二三十年前的搜索时代,到今天开启的交互时代,我们依然会想起那英唱的那首歌,山不转水转,水不转云转,云不转心转,再深的巷子也能走出那个天,再大的数据也能绕过那道弯,谢谢大家!