中国工程院邬贺铨:大数据技术发展趋势

互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。会上中国工程院院士邬贺铨跟与会人员分享了大数据技术发展的趋势。

邬贺铨

中国工程院院士邬贺铨

以下是钨贺铨演讲实录:

钨贺铨:很高兴来到大数据产业峰会,我想就大数据技术与产业及影响谈一下我的看法。我们先看一下数据挖掘的过程,从数据资源、数据采集、数据存储、数据传送到数据分享、数据挖掘、数据呈现、数据应用,产业、安全、法规人才。这并不是所有的数据都要拿来挖掘的,首先要进行取样分析,首先在选择数据的时候要进行提取,标签化。对一些非结构化的数据还要进行变换处理,然后分类收集,最后抽取出原数据,然后把原数据再融合,这个过程还是要反馈的。我们首先看数据融合,传感器的数据是物理空间的数据,网络空间的细分空间,还有政府企业收集的相关数据。

2013年,全世界来自消费企业的数据占三分之一,当然数据里头很多国家安全、个人隐私的这些数据不能开放的。大数据里头有一部分的数据是开放的,当然数据本身有结构化的、非结构化的、半结构化的。我们再来看大数据分析的流程,实际上所谓大数据很多时候既很难说它什么时候开始,也很难说它什么时候会结束。在整个数据获取的过程中是不断的流进来的,我们要通过分析模型来引导和收集。过去我们的收据是代数据进行,现在数据是活的,我们只能带程序进数据。我以阿里云的大数据平台为例,它底层有计算引擎,上面有数据的开发和加速,有数据管理、数据资料保障,数据监控。当然用到机器学习,在上层是应用开发,这里面可能根据你需要的选择规则,准备分析,还有评价或者是推荐优选,可视化、具体人群,识别文字、识别语音。最后是面向解决方案的,究竟是面向智能支付,还是企业的精准营销,还有交通路况预测,以及我们监控的安全预警等。

我们再看,大数据需要实时抽取,这里面左边的照片在罗马,这是拍到的古罗马的移植。如果我希望凝了解当时古罗马的样子,可以把分散的照片以及留下来的一些照片聚合起来,可以形成一个古罗马的最后的全貌。这是用到信息融合技术。它把分散的数据集合成一个全集的数据。以下的两张图是一样的,右边的屏蔽掉我所不关注的部分,然后抽取我所关注的部分。在繁杂的大数据中,我需要信息抽取来抽取我所感兴趣的数据。

大数据还要做到可视化,这是交通数据的可视化,也是以色列的克拉维夫,它有很多摄像头,传统的摄像头是分散的,孤立的,现在通过大数据的可视化的技术把它组合成一张图,不同的十年,路上的状况不一样,用不同的颜色标注交通管制,等等。

我们再看北京PM2.5,去年PM2.5超标,有些人怀疑自己肺有毛病,到医院做了几个CT,医生看分散的CP照片是很难的,希望通过虚拟化把它还原成一个肺,再看看有没有纤维化。甚至可以用AR和ER的技术深入的研究,身上有没有病灶和毛病,等等。还有交通的路矿预测,以及我们监控的安全预警等等,当然了,面向媒体、能源、交通,所以大数据里头主要的有计算引擎、数据开发和运用开发加速。

我们再看看数据挖掘的算法,首先要通过合并压缩转换,然后是统计分析、支持发现可视化,最后是规则、分论、绪论、序列、路径,涉及到一大堆的算法,我们可以看到这里面有数据获取,然后转化与存储,然后数据虚拟化和摘要,最后是决策分析。需要用到一些软件。大数据首先是计算问题,是不是所有数据都可以计算呢?不一定,有些数据是可以判定的,它是容易解释的,可以有多项算法来解释,但是有些数据是比较难解的,这里头有一类是不可近似的,有一类是可近似的,我们可以看到我们首先要探索数据复杂性的规律和关系的生成机理,建立数据复杂性的理论和模型,这里面包括数据的结构和学习,最后还要把数据简化。所以,美国加州大学图像可视化中心已经组成了语音非结构化数据。现在我们高校在大数据研究上还可以,但是做一些数据分析的单位没有数据,而拥有数据的单位有些不会分析。