第2届“2012中国数据中心产业发展大会”于20112年月17日在北京举行,在下午的云计算与灵活高效的IT基础设施分论坛上,中国云计算专家委员会云存储组组长刘鹏做了“透视云数据中心热点问题”的主题演讲。刘鹏表示由于云计算的海量数据的处理能力,我们能够把不同的云连接起来,将来机器的智能会得到迅速的提升,机器智能将会成为社会发展的重要标志。未来的挑战其实是人的智能和机器智能差异之间的挑战,人跟机器差得太远。刘鹏认为认为云计算的热点问题主要包括几个方面,以下是演讲全文。
刘鹏:大家好,首先我们来看看云计算的本质是什么。云计算之所以能够快速发展,其实它是有背后的驱动力,这个驱动力就是为了全球的数据增长非常快,经过IDC的统计,过去十多年来,全球的数据总量每隔18个月就会翻一倍,这是数据的重量,这就代表了人类有史以来所有的数据再过18个月就会再大过一次。
中国云计算专家委员会云存储组组长刘鹏
这么快的增长,我们靠摩尔定律解决不了的,但是我们的数据增长是比18个月前的所有的数据累计在一起要翻一倍。比如中国移动,中国联通,中国电信,他们都是用小型机去处理,但是现在不用云计算去处理是根本搞不定的,您用小型机处理成本也是高昂得受不了。
再看淘宝网,如果没有云计算在后面支撑,我们去年看到双11,2011年11月11号,在神棍节那一天,所有的网友在凌晨零点同时交易,交易量是非常惊人的,如果你没有一个好的IDC设施,你就没办法应对这种流量。
我们知道12306,我们铁道部订票的网站不是采用云计算的,云计算的区别是什么?云计算也是网络发展的必然结果,我们传统上希望通过网络去连接大量的结点,构成一个超级计算机,我们叫云计算。
谷歌做的叫Google File System,这个系统它就能够把数据可靠的分散在存储在不同的结点上,每一个数据至少在三个结点上都有三个不同的数据,任何两个结点损失都没关系,使得他的机房可以做得非常的土,这个机器都是把背后难看的以免对着走廊,就是因为这些机器太容易坏了,但是一台两台坏了没关系,它会自动恢复数据,做成这个样子,就是随时把机器拔下来算上新机器,随时进行管理。
这是第一套云计算的平台,最开始的时候他们并没有钱买机器,他们从实验室买了一批别人扔下的机器,构成了最早的谷歌的平台,他们就是用这样的技术做成的,谷歌的云计算数据中心都建在荒郊野外,微软同样也采用这样的方法,一台集装箱装200台服务器,部署云计算数据中心,这样的建设模式在过去几年来得到了验证,认为这是可能的。
2010年由于数据中心和运城痛惜网络的快速增长,使得用电量激增,从而对气候变暖产生极大的负面影响。
首先我们小小的终端变成了超级计算机。比如说我们的GPS导航,都是一个固定的一种导航的模式,如果我们把城市交流流量和导航结果起来,经过它导航,就不会把我们带到会堵车的路段。我们认为会有更多的职能的服务,我们大家都看到大量的网盘免费的空间越来越大,服务器月份也不会塞车,信息随手可得,这就是云计算给我们带来的变革。
最大的变革应该是计算智能大幅提升,由于云计算的海量数据的处理能力,我们能够把不同的云连接起来,将来机器的智能会得到迅速的提升,代表是以去年2月份IBM的超级计算机和人做了比赛,结果是机器获得了胜利,这也是很惊人的一个案例。
当然今后这种案例会越来越多,机器智能将会成为社会发展的重要标志。
谷歌也做了一些服务,它可以做68种语言之间的自动翻译,以前我们认为机器译出来的东西是没法读的,但是现在已经远远超过了这个水平。
这是它翻译成英文之后的准确超过了一般人的翻译水平,这就是我们有了云计算的平台支撑之后,所以我们能感受到这种服务巨大的变化。
所以我觉得真正的我们将来要面对的挑战,并不是我们现在大家所看到的挑战,未来的挑战其实是人的智能和机器智能差异之间的挑战,人跟机器差得太远。
我认为云计算的热点问题主要包括几个方面,首先我们看看云计算的安全,在云计算这个环境里面,安全的问题和传统的安全会有所不同,但大部分是相同的。因为我们传统我们的银行很多数据库都是被互联网公开的。现在有了云计算之后,基本的安全保障应该是能做到的,但是云计算平台和传统的平台有一个最大的不同,就是云计算系统它是一个多租户的系统,很多人都到你这个云计算平台来,我们把一个数据中心防护得非常好,不让别人进来,现在别人是你的租户,他租了你的云计算的虚拟机,他干他们的事情,这时候你就没办法这个租户到底是可信的还是不可信的。
所以如果他利用你的平台去窃取其他用户的秘密那就很糟糕,怎么防止云计算数据中心在共享的状态下面是安全的,里面很重要的就是虚拟机隔离,这些问题是云计算数据中心会面临的安全挑战。
另外数据中心建设的问题,就是facebook在最近把facebook的数据中心开源了,由于它发表了几篇论文,一个是(英语),这几篇论文改变了世界,从而使得云计算流行起来,谷歌为世界做了巨大的贡献。Facebook想做更大的贡献,它把他的方法彻底的公开了,这个数据中心是建设的方法是非常惊人的,它采用了很多全新的技术,它的PUE能源利用效率做到世界最好的,可以它给我们带来了很多可以参考的东西,它的数据中心是建在一个戈壁滩上,这个数据中心里面大量使用了新技术,比如说喷雾,水雾(音),使用了非标准的机柜,这个数据中心包括它的主板都是定制的,来提高它的能源利用效率。我们可以学习的东西很多。
云计算能源的问题也是一个显著的问题,谷歌为了解决能源问题,在美国的东海岸收购了一部分股权,就是东海岸海里面的风电厂,从而为云计算数据中心供电。英特在沙漠里面建设太阳能的收集装置,用沙漠里的能源供应云计算数据中心。微软是在芝加哥数据中心采用大量的管道,供应云计算数据中心散热,规模已经建得很大了,这个数据中心获得了欧洲的节能大奖。
谷歌也数量了一些新的专利,比如说把云数据中心放到大海里去,让潮汐去发电,只要有光缆连起来就可以供电。谷歌的云计算数据中心的能源利用效率,经过这么多年的发展是越来越好,谷歌在比利时建的云数据中心也是建得非常好,原料不用空调,比利时这个地方一年有7天温度会超标,这7天谷歌就把这个数据中心不让它工作,全球的访问会自动的到别的地方,谷歌的平台能够支持到任何一个数据中心被摧毁的话它的数据不会丢失。在国内360安全卫士也有这个能力,我们看到廊坊一个机房,由于空调损毁,那个危房温度超标,360在北京把廊坊的机房下了当,这时候全部的访问,用户根本就感觉不到我的数据又转移到别的地方去了。
另外一个还有云计算平台,我们在国内能看到的开放出来的云计算平台一家是盛大,一家是阿里云,我们通过租用他的平台可以进行云计算的应用。我们通过远程桌面来连接云计算,就可以当作我的机器来使用。
云计算的应用这方面,我们能看到现在越来越多的应用是云计算的应用,比如说百度,百度也建了一些云计算平台,最大的一个集群是3000台机器,在360,金山,瑞星都做了云安全。
我们在互联网上能看到这样的应用,对笔记本进行多方面的搜索,都是基于云计算来做的,这种多尺度的搜索用传统的方法来做效率是不高的。我们看到新浪微博,你一旦登陆进去以后,他关注的人有5个人跟你关注的人相同,你要不要把他加为好友,大家都知道这个功能,这个功能可是一个了不起的人,因为每个人都会关注一群人,新浪用户都有很多的人,所以你想想这个计算量有多大,而且是时时的。所以我们能够做出这种应用,完全仰仗云计算给我们提供的前所未有的计算能力。
淘宝也提供了一些云计算的服务,比如说可以给淘宝里一些比较好的卖家提供服务,我们看到淘宝里面的皇冠的卖家,他们并不一定因为他的东西卖得特别好,主要是他做数据分析做得特别好,这对于我们提高销售量是非常有好处的,我是一个什么都卖的企业,我通过在淘宝里面购买数据分析服务,我对于怎么去选择商品,以什么价格来定价,这个是非常有好处的。如果你始终卖的东西都是热点问题,价格又有竞争力,再加上你又是皇冠用户,所以你一下拿到几个皇冠是很容易的事情。不管淘宝卖东西的人,还是炒股的人,都是做数据分析做的好的人才是最后的赢家。
马云也讲淘宝最大的财富就是它的数据,通过淘宝的数据分析,马云掌握了很多东西,比如说哪个省的顾客身高最矮等等,类似这些分析都是通过淘宝数据分析,哪个省的顾客穿的鞋子最长,他可以做数据挖掘。
现在国际上的组织都在做云计算的标准,这些云计算的标准在我们云计算已经蓬勃发展起来之后大家才讨论云计算标准的问题,在最开始的时候根本没有标准,这个时候你怎么做这个标准是很难的一件事情。大家更多的标准都在讨论不同的异购之间怎么实现互联忽操作,使它能够交换资源,交换信息,能够有一套安全保障的设施,这就是我们做云计算的标准,最重要的就是云和云之间的标准,而不是在云内部的标准。
所以我们能看到现在云的标准的热点,大部分都是在之间,即使我们说计费机制,就是不同云之间怎么计费。
我们再讲一下云计算的本质是什么,是对烂机械提供服务。下面我们介绍一下典型的云计算平台。这个是CSTOR云存储的系统,这个平台它的机器,一对管理结点可以管上千个存储结点,这是两套机器,所有的访问来了之后,首先是去管理结点去询问我的数据应该在哪,管理结点告诉它你应该放在哪,这个用户那一端的程序就会自动的访问具体的存储结点,就会有一堆的存储结点为用户服务,不同的用户会分配到不同的存储结点,所以它的IO的能力非常非常强,使得这个系统具有前所未有的吞吐的能力。
现在的云存储就这是种架构,使得所有的结点既是存储结点,也是对外服务结点,所有的结点都能对外,所以它的服务能力就变得非常强,任何结点损失也没关系。这套架构它是采用一种云的架构来做。
另外它还能够把不同极点的云存储虚拟在一起,使得它变成前所未有的大的存储,全球的总的数据量到现在为止大概是2000多EB,但是这套系统就能支持1000万EB的容量。性能也是随着结点的增长,它可以增长它的性能,因为每个结点都是对外服务结点,所以它的结点数量足够过性能就足够强,这个和网络有关,主要的瓶颈在网络。
硬件上面做了新的云存储的控制硬件,这个硬件使得功耗大幅度降低,这个板子带16个硬盘,这个就是10万的能耗,这个系统就能够密度做得非常非常高,这样一个机架支撑1.1P,就是1000多TB的存储的容量,任何结点坏掉没关系,这个截面上会换红灯,你不用管,过了几个月你换一块硬盘插进去就可以了,所有的维护都不需要用人去做。它是高可靠的,它能做到损失一半的结点,数据不会丢失,但是它的溶密度是1比1,这种方法是很极端的。
所有的结点可以同时对外服务,功耗是传统数据中心的云存储功耗的五分之一,整个系统能源消耗非常非常小,集成度现在NMC提供了360T的云存储,这个是1.1P,是它的3倍。从使用的角度来讲,它可以做到完全不用学习,它挂上云存储之后,你的机器就多了一个硬盘,不需要做任何的改造和需要,它也是成本非常低,云存储的价格之相当于传统价格的5分之一或10分之的价格。
大家都知道南京发生了一个很重要的案件,1月6号南京发生了公安部一号大案,枪击案,所有破案的过程的数据都是在这个系统上面。南京政府数据中心也用了这个系统。
云处理这个平台,底层采用了(英语)系统,这个平台它不是一个商用的系统,在它的性能和可靠性方面还有一定的局限,比如一个管理结点要瘫痪的话,这时候系统要停机,至少要一个小时才能恢复过来。另外就是它的性能,它适合做统计性的应用,所以它不是时时应用,所以它在做数据管理的时候,不能时时做出反馈。
比如说我们对中国移动的数据做了处理,效果非常理想,基本上比如说广东移动的数据量非常非常庞大,能够在一秒钟之内把产品结构给出来,而同类的其他系统都要几分钟才能有结果,差别是非常明显的。
同时我们这个技术也用来处理交通的数据,城市里面有大量的拍照的设备,车一经过它就会拍一张照片,记录少的时候我们看不出来,就像在南京这样一个城市,一年是2000亿条,如果我们把这个关系放在关系数据库里面,一般10亿条就完了,就没办法处理了,它的查询时间是一两分钟。
假设我在南京每一辆车经过我都要检查一下这个车是不是套牌车,我们就检查一下所有的卡口有没有这个车牌的,就说明那个车和这个车相同的车牌号出现在不同的位置,就说明这个车是套牌车。你如果用关系数据库做的话是永远做不到的。所以用云平台任何一辆车经过,就可以和所有的数据比对一遍做这样的数据。目前我们在江苏省已经把这个平台做起来了,就可以使这个数据能够快速的反馈上来。
另外云传输系统,能够把(英语)能够把远程数据传输的速度大幅提升,这是我们用(英语)的标准的协议去传输,就是这样的。因为(英语)已经有30几年的历史。当(英语)传输的时候,两边是反复要握手的,所以它的效率很低,如果丢包的话它的速度会降一倍。所以这个协议在远程和质量比较低的网络上传输效果很差。我们做了一套新的协议,叫(英语),它能够把性能提高到这么高的一个幅度,有一个大幅度的提升。从北京密云传到北京市里面,光纤的传输就可以到70几兆每秒,就是换了不同的传输系统,现在也是和一些上市公司,比如深圳的天华传媒合作,他是要把电视节目传到全国的电视台,一天都是要寄硬盘,现在有了这个系统,他根本就不需要寄硬盘了,这个节目往系统一放,就通过互联网把电视节目传过去,传到全国的电视台,目前已经做了6个省,今年要增加10个省,就能快速的通过这个系统把它传到全国各地,这样大大节省了我们运维的成本。
我们有两本书,一本书是《云计算》,这是国内销量最大的云计算的书,我们推荐看这本书,这是把所有的代表性的流派的云计算是怎么实现的都有描述。另外有Hadoop编成的话,这里有很多的案例,都有一些实际的案例。谢谢。