雷涛:大数据时代的大智慧

在“2011中国云计算与云服务发展高峰论坛”上,北京云基地副总经理做了以“大数据时代的大智慧”为主题的演讲,以下为演讲实录。

大家下午好!感谢这么多同事下午可以回到这个会场。先介绍一下我们云基地,云基地是一个组织,田总就是我们基地的带头人,以资金加基地的这种新的产业模式投资了13家公司,从基础设施,比如集装箱式的数据中心到SaaS的软件,我们今天的题目是比较专的在某一个领域,因为这一两年我们发展很快,从去年10月份以来,已经产生了很多的经济效益,投产的这些服务器也有了一定的规模。但是我们也看到了在大规模上IDC数据中心的同时,什么是真正驱动我们能够让云计算真正落地,能够给国家做出一些贡献,下面我给大家分享一下我们云基地在云计算这个领域里我们会着重在哪些领域中做贡献。

在前全球化背景下,田总现在正在硅谷跟比较前沿的北美厂商谈合作,谈收购情况。整个产业链已经丰满了,但是我们也看到云计算目前离我们大规模的建设还有一定的障碍和周期,我分享一个报告,是什么因素在影响着我们呢?比如说安全性等各种各样的问题。IaaS我们从去年10月份到现在已经做了几个大的成功案例,我们已经获得了一些经验,但同时也碰到了一些问题,最近一些财报也暴露出一个问题,在没有形成规模效应之前,它的盈利模式是值得怀疑的。现在利润额下降了,云计算是最大的一块问题。

走过IaaS这个层面之后,云计算到底能提供哪些内容?这个周期可能发展得很快,国内有一些先进的厂商,比如上午提到的云快线,已经提供了IaaS的服务规模,那么下一波的云计算大潮在哪里?今天许主任也讲了大数据大经济,其实我今天想谈的是大数据。大数据是北美目前最热的一个话题,他们那边有很多研讨会,跟大数据相关的不同层面的应用厂商也出现了,所以我们看一下这个“大数据”。

什么是大数据?IDC给的这个Forecast,什么是EB呢?现在的数据九年以后只有2%,我还看到另外一组数据,是在微博上看到的,还没有考证,写的是未来20万家庭上网量,可以看到数据是非常迅猛的增长。这个数据如果不用的话就是垃圾,是存在数据中心里的垃圾,我们怎么能把它从数据变成信息,从信息来产生价值?这就是我们要谈的云计算的一个新的核心生产力,是大数据的一个利用。

 麦肯锡今年4月份给了一个报告,这不是一个IT报告,是一个经济模型的分析,详尽阐述了几个行业中数据本身对整个经济的影响。给大家分享一下,比如说在医疗这个行业,大数据本身按麦肯锡的规划,能够产生3000亿美金的生产力,相当于西班牙整个医疗行业的投资规模的两倍。公共事业上,相当于2500亿欧元,基本等于希腊的GDP了。从全球的角度去看,针对这些数据产生的经济价值评估是6000亿美金,由此产生的工作岗位在北美有14万个,就是与数据评估相关的岗位,数据本身就在创造着经济效益。

 数据有什么样的特性呢?我们也看看,在云时代开始关注数据本身。这里举一个例子,北美的一家医院,这个医院已经普遍开始使用社区网络了,也就是某一个医生的医嘱不是写在纸质的凭证上,而是写在了他的Twitter上,还有他个人的网页,blog。相应的这些信息是作为医疗诊断,这靠传统的IT系统是无法获取的。一些专业的数据库层面的体系肯定是不可能捕捉到这些其他社区网络上的信息,所以大数据本身也存在着一些挑战。

第二个挑战是数据的海量特性。我们也看到一个人一生可能产生一个PE的数据,包括你喜欢的第一本书,第一个音乐,或者某一个片断,或者给子女照的照片,或者是有纪念意义的票据,这些信息都存储出来,每个人都可以达到一个PE,在这个环境下涉及到的不是容量问题,而是怎么能够放进去,怎么能拿回来。

我昨天看了一条信息,是亚马逊评估存储能量,没有用的是PE级别的概念,他们有4500亿个对象,用这种来描述。为什么这种描述呢?这是新型的机制,就是怎么能放进去也能怎么拿出来,上百万的东西中可以挑出来这就是新一代存储方式的挑战。

同时,也出现了经济本身的创新,出现了新的经济形态。比如说像Twitter,上次北京经贸委也谈过,头一天正好是李娜获得冠军,她拿到冠军之后五分钟之内新浪微博有30万的转发。这么多的信息本身,从政府职能角度,怎么控制这些信息?怎么利用这些信息?比如做舆情分析系统,当时也跟北京经贸委谈了。这些系统可以帮助你在公共事件出现的时候,我们不能总是在事后做,通过这些信息本身的跟踪和挖掘,我们可以做前期的工作。

同时,我们也和运营商讨论过,也和移动沟通过,有很多基于数据本身的,我们现在做的项目就是提供智能分析,做行为性的分析。对政府而言,比如房地产交易,还有公共事业中我们也做了一些成功案例,比如智能电网领域,每个信息都是局部计算之后实现总体提交,以前通过传统的架构操作这么大规模的数据是不可能的,这些都必须使用的是云技术的大数据技术。

我们再看大数据技术是不是阳春白雪?大家每天都看财经新闻,上面每滚动的数据,比如石油为什么是117美金而不是116美金?再进一步说希腊,主权基金调低了两个级,他们的能量要比美国军队的能量还大,是怎么实现的?他们是什么样子的规模呢?比如17000个,可以在10万个处理器上实现作业,同时在小于一个小毫秒之内来实现,突破了传统的数据中心的结构框架。为什么会有SNP的时代?我们这一代是在SNP的时代成长起来的,就是因为它足够的快,足够强大。如果云技术组织起来上千台的服务器,所获得的计算能力是更大的。

如何让大数据本身产生大智慧?我们探讨一下云基地在这个层面上涉足了哪些领域。我们定义出了很多领域可以去涉及,比如说右上角的产品,就是个人云,我们收购的一些小公司,跟芬兰的一些厂商也有一些合作。基础设施本身这四块,包括基础架构,我们的目标是做亚洲最大,北京市政府也投资,目前是6万多台的产能,规划产能是50万台服务器,同时还有基础设施,集装箱,还有像虚拟化产品,虚拟化平台,我们的领先性也是比较强的。我们内部也实现了自动部署工具,这是在基础架构层面。

另外两块就是我们所关注的云计算和数据存储,云计算这块目前已经有了两家公司在做这方面的产品。

我们看到这个领域是非常热的,分成了几大分支,(算法交易)我们涉及到更多的是SOA,这个领域做得比较多一些。这么多应用原来是跑在服务器上,我们怎么让它去优化?这是需要考虑的关键,就是如何让它的处理能力更大。我们跟厂商在谈的时候,他们说我们现在的股票交易,这些交易只能做不大,如果能突破这种方式,就是作业能不能被碎片化,有了这个帮他实现分布式计算。传统的业务,右面红色标志的是可以被云化的业务,交易类型的比如说复杂事件处理的应用,还有像交易本身的分析以及行为本身的数据,这些都是大数据所涉及到的应用领域。目前大数据方向,几大公司在上面投入比较多,也都不是一些草台班子,田总投资的都是北美的一些团队。

我们可以提供两方面的优化体制,比如说现在很多企业都在是使用分布式计算,开源是帮助大家最先尝试的方式,但是开源本身没有扩展能力,没有企业级的一些特性,我们基地分装了很多样本,做出了一个平台,就是客户本人不需要自己写代码,我们帮助你做事业实践,这是目前可以实现的商业实践机制。

另一种就是比较颠覆性的,就是我们用新的峰值计算加上存储机制来实现。我们可以看到这个图,左右对比就是传统存储和新一代存储的特性,传统存储做不了太大,如果再扩展怎么实现?因为内部存的都是一些数据,而不是信息。什么是信息呢?当我把这些信息加上描述性标签之后,我知道这是什么内容以后才是信息,所以我们用信息存储区别于传统的模式。有了这个容器以后,完全是一个扁平的架构,经过跨省、跨地域,这样就可以实现底层呼叫,突破容量的限制。

上次就可以实现分布式计算平台来交易,比如说右面的这个蓝图,我用了很多术语,可能大家听得比较头疼,如果看得清楚的话可以看到这个,一个简单的例子,怎么数出这里面有多少个三角形方块,如果数左边,我们用分布式框架拆开很多,自己先数自己的,最后合并一下,这种计算方式就是属于分布式计算。比如说房地产交易,我不需要把所有数据汇总到数据中心里面去计算,大型数据库中去计算,这是不现实的,现在很多运营商也看到了,根本没有这个能力把这么多的数据全部入库。怎么做呢?就是在本地,在各个房交所里去算,这种方式就是充分利用本地资源以及利用廉价的平台资源来实现的。跟传统的结构的差异就是左边这个图,这个结构不是过去的结构,是两种使用方向。左边的更多是看到应用服务器,右边面对的是什么?是商业逻辑。这两个是不一样,计算量非常庞大,这就是云计算所带来的特点。

这种框架有什么好处?我拿医疗行业举一个例子,比如区域医疗,大家想怎么做疾病防护,从一家医院走到另外一家医院的时候,原来的X光片怎么可以继续使用?是存在了某一个系统里通过数据库来管理。现在区域医疗很难做融合,如果使用了这种新的结构,每一个X光片不需要数据库了,就像谷歌看网页一样,怎么找到网页?这种扁平结构就是我们所采用的。直接体Web的界面之后通过互联网的方式直接获取到你所需要的数据,数据中心没有必要独立建立一套系统,你就可以在数据中心获取到不同的定制的这些视频。

这是我给大家分享我们目前在大数据领域的一些技术实现和一些成功的案例。

云基地这个想法按我们带头人田总的相比,就是要用书本的价格获得数据中心的计算能力,这是它他的使命。他上一个使命是希望所有人都能上互联网,他帮助网通上市已经成功,现在第三次产业希望带着云基地这几十家公司,帮助大家用更加低廉的成本获取北美这些超大型数据中心的能力。

这就是我们基地的情况,谢谢大家!