工信部高微:大数据产业正围绕数据形成新的生态

8月19-20日,由工业和信息化部批准,中国通信学会主办,中国电信、中国移动、中国联通协办,信通创展承办的2014中国国际大数据大会在京成功召开。下面是工信部电信研究院高巍在“联合变革 开放创新”分会场的演讲。

高巍:

今天演讲的主题是《大数据产业进展和发展策略的思考》,我们研究院2012年开始在大数据方面进行了持续的研究,今天我也希望借这个机会分享一下我们的研究成果和想法。

今天的演讲一共是这么三个部分:一个是大数据发展的脉搏,第二个是我们目前所看到的大数据技术、产业和应用发展的进展,第三点是大数据发展政策及思考。

首先,简单看一下所谓大数据的起源和断代。自从人类有了文明之后就开始有了数据,当然大数据也是随着人们文明不断的演化。我们现在所说的大数据,当然是从计算机计算技术出现之后,才出现的概念。

从50年代开始计算机技术得以发展,至今我们是以处理结构化数据的脉络,一直到90年代提出数据仓储、数据挖掘、BI的概念,实际还是沿着结构化数据的脉络。我们说,99-00年左右,互联网的爆发增长体现出了现在的态势,一个是数据量的增大,99-00年web网页的数量达到了40亿,达到了TD级的数据。另外,web出现之后,给互联网带来了富媒体的内容,带来了更多的数据。

大数据

我们觉得,除了这些基本的特性之外,我们还需要从一些理念的高度去理解大数据,现在的信息社会,信息当中蕴含着很多价值,像金矿一样,我们原来没有手段和工具去挖掘,而现在要长期这样的工具。原来我们依靠单机的数据库方式,可能并不是非常好的工具,而现在有自动的智能深度分析,这样的工具出现,使我们逐渐有了能力挖掘大数据。

我们如何看待数据本身?传统的方式,可能大家在很多场合也提到,传统的方式是抽样,但现在由于工具的改变,技术的提升,我们可以以全级的方式分析数据,同时我们分析的时候是寻找数据的相关关系,就是我们对待数据的理念上产生了变化。

下面,简单分享一下我们对大数据技术应用的看法。

大数据

从数据的技术角度,大致就这三个层面:第一个是预处理,数据的抽取、数据的转换、数据的加载。第二个是数据经过预处理之后进行存储、计算、分析的过程,这是数据价值战斗的过程。第三个是数据的可视化,我们如何把数据转换成大众易于理解、易于形成决策的方式,类似我们在春节的时候新闻中不断在放百度对春运的大数据。

现在的大数据处理跟传统的数据处理还是同样这三个环节,只不过因为现在一是数据量的爆发,第二是非结构化数据的引入,第三是对处理需求的出现,使得不同环节在技术上面对不同的挑战。

首先主要的挑战在于不是结构化数据,而是来自于不同的数据源,或者多模态的数据,这些数据是非结构化数据的,如何进行统一的关键数据抽取,这是现在面临的一个挑战。另外是数据的存储,现在互联网数据以PB级计算,如果还是用传统的存储方式,包括IO性能和成本上都没办法承载。所以,现在提出了低成本基于分布式的数据架构。

同时,这种计算的场景,我们最初在搜索引擎这个时代,其实它并不要求数据处理的实时化,它采用的是批处理的方式,我把结果处理出来之后可以提供给他使用。但是,现在在线的应用,需要实时的数据处理,甚至还需要对其它不同结构的,包括以图结构来呈现的数据处理,原来以数据批处理的方式已经不再适用了,现在出现类似于像sdop(音)流式实时处理的架构。

原来结构化数据的分析,更多是用原有模型进行分析和处理,但是现在我们面对着大量的非结构化数据,可能鲜艳的知识模型没有办法应对现在这种新的不断变化的数据。那么怎么办?所以现在出现基于自动化的继续学习,使整个数据的分析过程,完全实现自动化,不需要人工干预。

最后就是数据的可视化,如何能够实现直观的用户可以理解的结果,这是由于数据产生的方式,数据本身形态的变化,使得大数据技术不断进展。从技术本身来看,我们认为大数据技术的发展和创新,呈现这样三个阶梯的状态,从原创技术到开源社区,到最后的产品。其实,对应到我们产业界,对应着不同的企业群体,跟大家现在所看到的,这个数据分析的基础是Google04年通过几篇论文提出来的。实际上,Google在2000年之前已经拥有这些技术,三四年之后他通过学术论文的方式把这种技术和思想公开出来,当然由这个技术公开之后形成开源社区的版本,可能又过了3-4年的时间。所以说,从原创到最后的开源,中间会有5-6年的时间差。