微软王枫:云计算与大数据时代下的新世界

10月25日,2012云计算架构师峰会在北京召开。近几年,IT技术与互联网的发展影响了整个产业的格局,带来了全新、鲜活的业务模式。面对这些变革,本届大会邀请了百余位行业内精英针对IT技术发展和应用的实践经验等热门话题进行深入探讨。微软亚太研发集团中国云计算创新中心总监王枫先生带来精彩演讲,演讲的主题是“大数据的新世界”,以下为演讲实录:

今天首先很高兴有这样一个机会跟各位领导,还有IT界的同仁们一块共享一下云计算作为现在IT新一轮的潮流。刚才北航的孙院长讲了一句话,现在是IT界的乱世,乱世出英雄。我想大家也很清楚,随着下一代IT趋势作为互联网新的IT技术的发展,大家现在确实进入到IT的新阶段,在这个阶段里,我想最主要的就是三个主要领域,第一个就是云计算,第二是物联网,第三就是大数据。

我想强调一下,其实从云计算来说,它最主要的带给IT、带给人类的三个主要的优势,一个是它的经济性,一个是它的快捷性,一个是它可以通过云计算来让企业实现更多的创新。在这里,一个最主要的就是对资源的整合。大家听到云计算里有一个最关键的词,资源池,它等于把所有的资源数据通过云计算的技术、云计算的理念能够整合起来,在这里面数据是非常非常主要的。云计算咱们刚才听到了不管是IBM的同仁,孙博士讲到了各种各样的应用,其实所有的应用,数据是其中一个主要的核心,不管你是基础设施、不管你的平台、不管你的应用,没有数据,你就是一个空的架子。从物联网角度来说,它实际上主要是对目标的所有属性进行采集,对这些属性进行跟踪、管理和分析,这些属性是什么?就是数据。所以,在开场这一段我想说的,所有的这一切都是数据在云计算和物联网里面最主要的,也是下一代IT趋势的一个最主要的核心。我今天主要的重点是专注于大数据,大概从几个方面,一个是大数据的概念,什么是大数据,为什么是大数据,现在大数据的重要性。接下来,从大数据的生命周期、主要的一些环节、主要有哪些技术去实现大数据给我们IT、给人类和企业所带来的价值,微软在这方面有哪些创新,我们在国内外有哪些案例,大概从这几个方面来介绍。

这个幻灯片刚才徐博士也播放过了,现在为什么在这个时间段大家进入了一个大数据的阶段?我想主要的原因是很多的设备,不管是无线设备、公共互联网,包括各种各样社交网站、各种各样互联网的应用带来的数据膨胀,包括云计算、包括硬件各个方面。随着这些技术,随着这些互联网平台,随着设备不断的成熟、不断的扩大,由此而产生的数据就生长到了一个非常大的程度。同时,为什么大家说大数据这个概念?实际上在10年前,20年前,也有很多数据的膨胀,为什么现在我们要提到大数据是IT趋势里很重要的一个环节呢?因为我想要做到对于数据的处理能够更有效,你还需要硬件,在计算、在存储、在各个方面有足够的就绪,同时它的成本能够降低。就像刚才徐博士讲的,如果说在10年前、20年前,1G硬盘需要花很多的钱,咱们也不需要去谈大数据。云计算也好、大数据也好,其实最主要的给企业和政府带来的利益就是它经济上的价值。从这点来说,我想现在IT进入到了这么一个领域,通过有这么样的一个不管是在硬件、在软件各个方面就绪的这么一个阶段。

大家可能有一个很常见的问题,什么是大数据?从大和数据这两个词语里面大家可能有一个直观体会,第一是数据,第二是大,这个大代表什么意思?从几个方面,第一,所谓的大数据,主要的原因是随着IT的发展,随着互联网的成熟,随着刚才所讲的各种各样数据源的成熟,在这个世界上现在产生了各种各样的数据,这些数据不光是它的数量的大小,同时是它的种类的繁多,不再像传统那样,很多结构化的数据,现在有各种各样非结构化的数据,这些数据可以是视频、可以是音乐、可以是文件、可以是各种版本的文件。这些东西随着这些现有的技术,滋生出来各种各样的数据,它就形成了一个大数据的“大”的概念,所以这个大不简简单单是尺寸的大小,表示了这个数据的复杂性。

大家可以看到,通过这张图,实际上在互联网之前,主要的数据来源是企业内部的数据源,每一个企业有自己的IT中心,有面向企业的应用,通过ERP等各种各样的数据。互联网是一个非常大的创新,通过互联网实际上对应用和数据提供了一个庞大的平台,在互联网上就滋生出各种各样的数据,大家现在听到过一个词IT消费,我们每个人所接触到的数据,或者你作为一个数据的发源体,所产生的数据是无穷无尽的。最近IDC有一个统计,到目前为止,整个世界的数据量是达到了一千个ZD,ZD是一个什么概念呢?ZD相当于10个亿的PD,这个数据量已经膨胀到非常非常大的阶段。在这个基础上,同时,我想根据IDC的报告,在接下来的十年时间里面,这个数据还会继续扩展,可能会扩展到一千个ZD的几十倍,这就带来了大数据它会给我们IT、会给我们企业带来什么样的价值,这一点实际上是大数据最关心的,也是大数据最主要的一个核心。如果我来定义大数据的话,我通过底下的这么一个图表,其实大数据是一个产业链,也就是说数据现在在那里,很多可能是free的,有一千多个ZD的数据,你怎么利用这些数据去发掘它的潜能,必须要有产业链,从数据的产生到数据的采集,到数据的存储,到数据的发送,到数据的处理,到数据的分析,到最后,通过你把这些数据产生出来的分析结果,如何用它去指导你的企业,并制定企业更好的方针和政策,所以它是一个产业链的概念,在每一个环节都是不可缺少的。