美国泛达梁俊:泛达绿色智能化中心

2012年3月30日,2012第五届中国数据中心大会在北京国际饭店会议中心隆重举行。本次大会由中国电子信息产业发展研究院主办、中国计算机报承办。来自业内的知名专家、厂商代表以及各行业用户的代表600多人参加了本次盛会。来自台湾云端运算联盟技术专家委员会的大数据专家、云数据中心用户的代表鹏博士电信传媒集团以及包括惠普、IBM、泛达、宝士达、康普、戴尔、甲骨文、西蒙、中国万网、天地超云、Informatica、Teradata、赛迪时代等在内的众多业内知名厂商了参与了此次数据中心产业界的年度盛会。

  本次大会以“大数据时代的数据中心变革”为主题,全面而深入地探讨了在大数据时代来临的背景下,数据中心在构建、运维、管控和服务等方面将面临的挑战和机遇。大数据带来的挑战主要体现在三个方面:对通信能力的挑战、对存储能力的挑战以及对计算能力的挑战。对各行各业的用户而言,数据和信息已经成为云计算、大数据时代信息化建设和企业决策的基础和依据。

  会上,美国泛达大中国区技术总监梁俊为我们介绍了“泛达绿色智能化数据中心”,以下是演讲实录:

  梁俊:接下来由向大家介绍一下泛达绿色智能化中心,在之前很多人对泛达不是很了解,实际上泛达和你们每个人生活都息息相关,各位到这里有的人坐飞机,有的坐高铁,在飞机和高铁里面用到了大量的泛达的发家产品,扎带。扎带就是泛达发明的,为什么在飞机和高铁里面甬道扎带,在飞机有剧烈的运动,用普通的扎带线速会产生磨损。刚才看到大家都提到了有一些太阳能或者风能在这些产业大量泛达的扎带核能核岛里面有防辐射的扎带只有泛达来生产。

  我们之后开始关注到IT行业,泛达在这一块产品跟甲骨文是一起成长的。说数据中心之前我们先看一下很多的东西是相通的,我们先看一下住宅,每个人都很关心的。最早的时候人类住在山洞里,后来觉得不是很舒服,建了一些茅草屋,可以帮助大家遮风挡雨。之后要舒适一点,美观一点,就开始造城堡,最上面是比尔盖茨豪宅,这是他花很多钱建设的绿色智能的豪宅,他采用了大量的新能源,采用了低碳的技术,采用了一整套智能家居系统,这一套豪宅里面有26个浴室,这有什么作用呢?比尔盖茨的朋友过来了,他很喜欢请朋友过来,这个朋友客人进了房间,进了浴室第一次使用这个浴室,这一套智能系统可以记录下来,这个人喜欢什么样的温度,什么样的湿度,他洗澡的时候是不是喜欢有一些背景音乐,他喝葡萄酒多少温度了,他进了房间希望照明是多少,比尔盖茨每天回家的时候是什么时候,这一套智能家具系统可以在他到家前十五分钟把地暖打开,一进入家门的时候窗帘就关上了,灯光打开了,背景音乐响起来了,葡萄酒正好到他喜欢的温度。这和我们的IT,和我们数据中心有很大的关联,我们可以看一下最早的时候大家建数据中心,我个人是在2000年的时候参与了中国联通和中国网通第一代数据中心的建设,那时候关注只要能够联通和运行就可以了。

  发展了这么多年以后,到了2000年的时候大家关心的是什么呢?关心我这个带宽是不是高,我这个流量是不是大,我运行的是不是稳定,。到了今天这个时候,大家最主要讨论的是什么呢?绿色的数据中心,智能的数据中心,我们怎么样把管理的成本降低,但是同时我的数据中心还要很好的去运作。实际上我们说很多的技术都是相通的。说到这个以后,我个人可以跟大家共享一个故事,在2000年的时候我参与了中国联通在中国的第一个数据中心的建设,那个时候进来了一个很大的客户,放了20几台服务器,这个客户就是新浪,但是发现了一个很大的问题,新浪上海站老是发生宕机的现象,那个时候大家在推,在找问题到底在哪里,找思思科说,他说我们交换机路由器很正常,最后找出来是什么问题呢?一个小毛病造成一个大故障,散热,就发现机柜里面的温度快50多度了,然后把机柜前后门拆掉也不后,后来拿了四台风扇吹,但是也不稳定。之后把20台服务器拆掉,再把门拆掉,把风扇打开,我相信很多来宾都有这样的经历。到2005年的时候942标准推出给大家一个很好的解决方案,就是什么呢?冷热通道,我上面所显示的,把机柜一排排的铺设,当中一排冷通道,一排热通道,这样的一个方式解决。但是这个问题似乎很美好,当时似乎很美好,但是我们说技术的发展远超出人们当时设计的初衷,为什么呢?你们可以看到现在数据中心当中一个机柜散热功耗动不动20个K千瓦,30个千瓦,冷热通道只能解决到10K瓦,超过冷热通道就有问题了,大家不要认为这是小问题。我在去年做了很多设备,我发现很多客户碰到这样的问题。随着机房的建设,服务器,交换机的容量越来越大的,就会发现数据中心不在那么稳定,而原因就很简单,就是一个散热的问题。所以散热不是一个小问题,冷热通道也不是唯一能够解决机房的散热稳定的解决方案。为什么呢?我们来看一下,大家看到这是一个冷热通道的效应图,在冷通道这里面确实不错,我们可以通过上排风,下排风或者侧排风这样的方式来进行制冷。但是这远远不够,我们说热通道的热风没有这么听话,他还是自己想怎么走怎么走。也有很可能会跑到冷通道这里去,混合一下。就像我们喝热水的时候觉得太热了我加一点冷水一样,实际上在数据中心里面,通过这个流体力学或者流体的热量分析,你可以看到你想想当中冷通道吸进去都是冷气,实际当中并不是,他有一个混合了。特别是在机柜上面的设备,怎么样保证他还是可以在理想或者理论的温度上进行工作呢。

  另外一个挑战是什么呢?我们可以知道现在无论是思科,华为,很多的网络厂商已经不是在采用前后通风的方式,他采用侧通风,也就是什么呢?我们图上所说的,他从一个前面或者侧面左面进风,右边出热风,在这样的情况下我们传统的冷热通道只能解决前后散热的方式,但是左右怎么办?大家有没有想象,有一排机柜,从左边进冷风,右边出热风,旁边机器吸进去加过温的温度,等到五、六次以后,我等一下给大家看一下热效应图,这是一个真实的机房图,等到五、六次或者十次以后吸进去的温度已经是60度了,你怎么能够指望这台机器正常的工作呢,这就效应图。

  这在早年为什么没有产生呢?我们说早几年数据中心规模没有这么大,我们说一个数据中心放两台65,这个数据中心领导说我那里放了四台,放了五台,六台,但是问题是发展到现在,我现在看到的数据中心放十台,二十台7018的都有,碰到这样一个情况你的麻烦就大了。传统的方式再也解决不了了,大家可以看到这后面的红的就是代表热,绿的蓝的代表还是OK的,你想一想这一台设备都已经在60度了,你怎么能够指望很好很安心的工作呢。去掉寿命不说,稳定性就很值得怀疑了。

  我们是关注于数据中心的物理层架构,我们和思科联合开发了我们的产品,包括这些机柜台,包括机柜套件产品,这里面通过一些微通道,包括一些导流超的设计做到强制从侧面排出来冷风,从热通道这边排掉,这就是一些大概机架和侧门的效果图。没有空气导槽的效果图,每一台交换机排出以后温度会提高15%。用了以后我不能说完全没有提高,还是有部分的影响,但是已经是在我们可控的范围内了,这台机器还是可以比较稳定的去进行运行。

  同时比如说我们有二十千瓦或者二十五千瓦或者三十千瓦的时候,我们说用冷热通道,用导槽已经不能完全解决问题了,这个时候要提出新的方法,大家看到机柜上面是大烟囱,这是热通道的技术,我整体的热空气直接通过这个烟囱进入你的派风管道,防止冷热空气的混合,我把你给隔绝掉了。大家看到右手边,像一个集装箱的设计,这是一个冷通道的设计。这个冷通道就是说在这个里面完全是冷气排放,在外面才是热气,杜绝了热气在进入冷通道,通过这样你不必要在去增加你的空调的功率或者把你的空调调低或者增加一些增压器,通过这样一个简单的方法,你还是维持原来的温度,你可以达到什么样呢?我们的极限是可以达到每个机柜最高允许你有三十千瓦的排热效应。通过这样的一个方式,你可以有效的降低你的PVE的值,为什么国内很多数据中心PVE值老是在2.5、3.0,国外可以做到2.0以下,甚至有一些数据中心可以做到1.3以下,为什么呢?就是因为制热,因为散热,因为空调。国内很多同行在管理数据中心的时候发现过热情况,第一反映把空调温度降低,再不行增加空调,再增加增压器,这个事情是可以解决的,但是你不绿色,你不环保,你这个成本非常大。

  通过冷通道的效果,大家可以看到效果还是比较明显的,我杜绝了冷热空气的循环。同时我说在机柜里面,我们刚才结果了左和右前后后的问题,我们有没有考虑机柜里面下和上的问题,我们知道热空气都是往上跑的,如果你有放了十台二十台服务器,位于最上面几台服务期怎么办,所有的热气都往上走,我们在这边也增加了一些服务器的导流槽,阻绝了由下到上热空气的传递,同时对侧派风服务器也可以强制从后面排出。还有一些服务器特别矮,特别短,就像一个在森林里面矮树一样,他没有办法吸收足够的冷气,这种情况下上面也显示了我加长导风槽,吸入必要的冷气进行制冷。

  通过这样的一个方式,包括服务器,包括一些矮各自的交换机,我们通过这些内部的一些解决方式强制对他进行制冷。通过这个方式,通过这些物理的方式,我们不需要你在增加对空调的符合,一样可以解决制冷的问题,降低你的PVE的值。这就是一个由下到上空气的隔板,空气的导流槽,能够达到的一个效果。同时大家可以看到很多的数据中心当中有一些出风口,大家跑到出风口前面头就很痛,为什么呢?又冷空气又急,大家有没有想到这是一个非常浪费的地方,出来的这些冷气都是你的资源,你让这些冷气白白的跑掉了,该制冷的地方怎么办呢?他们也做了一些小的,我们可以把这些附件扎住,起到保护线缆的同时还起到防止这些冷气跑掉。有人一看这个东西雕虫小技,但是就是这样一个小小的发明,我们做过一个调查,普遍帮助你的数据中心节省最多达到3%的能源。刚才说装在地板上,这是装在机柜顶,我把你的所有冷气保护住。这是我们在去年和甲骨文一起研发的新的产品,这是一个实景图,在他们一个数据中心当中,大家可以看到所有的机柜都是白颜色的,为什么提出这样的呢?传统的机柜都是黑的,为什么这里用白的呢。两个考虑,第一个对照明的要求降低了,因为白的是反光的,你可以大规模的减少LED或者照明的需求。大家知道在数据中心当中有很多的热源,人的,设备的,还有一个是照明的。通过这个小的方法就可以有效的降低你对照明的要求。同时白色,大家想一想夏天为什么喜欢穿淡颜色的衣服,白色又是一个反射热能的颜色,通过这样一个数据中心的机柜的使用,思科有效的降低了在德克萨斯数据中心的PVE的值,这也是一个数据中心的实景图,这里面可以看到,这里面使用的就是一个热通道封闭的技术,他所有的通风口,制冷口都是从上面喷射下来的,他没有做架空地板,也没有做吊顶,他是采用什么呢?上送风,上出风,但是是热通道的物理的隔绝的技术。同时我们也和思科联合研发的很多的专用于思科的数据中心的机柜,比如说思科最新出的7018,7010,还有7009,包括9513,思科的刀片服务器等等这些我们都有和思科专门合作开发的机柜。特别是7018,我们很多的客户都找到我们,为什么呢?他在做前期的调查,物理层调研的时候发生一个问题,他们买了一台普通的机柜,但是回去以后发现有问题,因为7018对宽度的要求特别宽,他是要求两册有29.7公分的散热空间,也就是说这个机柜至少是一米宽。他对深度也有特殊的要求,同时他也有特殊的通风的方式,也需要加一些特殊的导流槽。这就是一个世纪的效果图,同时刚才说了是一个绿色的。

  接下来我要说一下智能,大家知道在数据中心当中我们强调一个网管,我们可以强调我要管到,甚至有的说我大的数据平台,管理平台可以管到软件,但是有一个问题疏忽掉了,我们现有的管理软件都忽略了物理层架构,恰恰是这个最容易导致整个系统的瘫痪,目前网管软件在这一块是一个大家没有引起重视的地方。

  我们说通过物理层的管理软件,你首先可以看到物理层发生所有的事件,包括你有多少的资产,你现在的物理连接是什么样的,现在数据中心的温湿度是什么样的,它的电源,使用空间,所有的这些基础构架,你所希望掌控的数据中心的内容,你都可以通过这一套软件进行有效的管理,这就是架构,我们有很多的探测器,有很多传统的跳线和软件组成的一个整体的构架。

  首先有一个功能,他可以显示一个端到端的物理的连接,包括你的终端的设备服务器也好,笔记本也好,一直到最后的交换机,整条链路都可以相你显示出来,你是无线的也可以显示这是无线的。这有什么作用呢?这首先是安全的作用,他进入安全模式以后你有非法的设备连接上去,他马上可以告诉你有一台非法设备进来的,他会有倒三角红颜色。

  第二,我们也可以实现资产的管理,一个再好的数据中心和网络,过两三年以后会产生很多黑口,可能说研发部的人,测试部的人过来把机器插上去,跳线跳上去,测试好了就走人了,这个口子可能今天可以,可能过了一个星期之后网管人员不知道了,这样情况出现过了一年基本上统计了一下,会有10-20%口,这个口不单单是物理跳线的口,还有网络的口,领导来一问这个口子干什么用的,没有人说得出,但是也没有人敢动。怎么办呢?解决的方法就是写报告,在增加网络端口,再增加跳线,再增加机柜台,这就是唯一的解决方法。通过这一套管理软件以后可以清清楚楚的知道这些是怎么回事,这是干什么用的,对那些黑口可以毫不客气的拔掉,节约出来的不单单是配件夹和跳线,还有网络的端口,还有后面的机柜,还有你的使用的电能,还有你的空调的制冷电能,这些东西都是一些隐性的成本,你可以节约了。

  同时还可以帮助你分析,你现在的交换机的物理端口物理连接的使用率,你现在制冷空间的使用率,它是一个平面图形的方式显示出来,大家可以看到实际的数据中心会以二维图形显示出来,这上面一小格代表一个机架,你直接调用各种各样的数据可以看出来,哪一个机柜泛红了,就表明这个机柜里面是电源过窄了,可能温度湿度不对了,或者这个机柜已经占满了,这样一面了然对整个数据中心物理层实际运行的情况就非常知道。

  它还是可以以颜色的方式来帮助你查找热点和热带,现在数据中心,很多数据中心大家发现有一个问题跑进去非常冷,冷的你已经受不了了,实际上这个冷对机器也不是好事,太冷太干燥了,对磁盘阵列的磁针磁鼓有很大损害,这也不是好事,但是没有办法,就是由于某些机柜或者某些机柜里面某些点特别热,所以所有的其他的机柜里面的设备必须连做。现在不需要这么冷,为了照顾这几个地方,怎么样找到这几个热点热带呢,问题是这个热点热带也像逃犯一样会逃,今天这一台机器过窄会热,明天应用少了就不会过热了,又逃到另外一台机器去,通过这个软件是实时刷新的,你可以实时看到热点和热带,然后分析历史数据,然后帮助你去重新规划,重新设计你的数据中心。

  这就是一个效果图,你调了图以后可以看到红颜色图有问题,或者电源有问题,或者温度有问题。绿色的就说明这是一个良民,从来不惹事。同时我们说现在随着云计算大数据的应用有一些虚拟机越来越多的虚拟机得到应用,这给我们管理人员又提出来问题,这个虚拟机是好事情,能够提高设备的利用率。但是同时也是一个潜在的麻烦制造者,为什么呢?一虚的话就管不住了,可能一台实体机上面有很多虚拟机,也可能一台虚拟机对应着很多实体的机器,你怎么样管,怎么样映射到实体设备上面,这一套软件也可以建立一些虚拟的,帮助你去管理,你只要点了虚拟机,就可以显示这一台实际的机器到底风度怎么样,这些机器连接情况怎么样,他的物理工作状态怎么样,这也是我们软件可以帮助你去解决的,我们把你很虚的东西落地,给你做实了。

  同时我们也可以和第三方的网络的网管平台进行一个无缝连接,像IBM,HP包括微软这样一些主流的软件,我们都是可以跟他进行无缝的连接,有这样的一个接口,可以把我们的数据导到他的网管平台,通过他的网管平台进行统一的管理,同时也可以帮助你优化资源。

  同时大家可以看到旁边图当中有一个机架的显示,这就是一个所见即所得,通过我们这一套软件可以精确调用每一台机柜,每一个机架现在实际的铺设情况,你的设备怎么放就是怎么显示的,你的设备亮的什么灯就告诉你亮的什么灯,你看到了就放心了,现在这个情况到底怎么铺设的。

  我们在上海、北京和台北101大厦都有客户的演示中心,我们在调试的时候,我的工程师有一天跟他说,我不知道安装的怎么样,配置的怎么样,还有多少机柜空着,或者有多少机架空着,他的反映可能和大家一样,立马站起来冲到演示中心去,我说你回来我们已经有这一套软件了,你打开了就知道哪一个机柜是黑色的,说明这个放满了,看到绿色的比较空,你把绿色的打开看一下,省着你跑过去了。再一个非常大的数据中心里面,这样一个小的软件可以帮助大家节省多少工作量。

  最后泛达还提供专业的服务,这个服务是什么呢?我们可以帮助你现场去看一下数据中心现在的实际情况,帮助你做一个调查,帮助你做一个分析,告诉你物理层的架构应该怎么架构,你现在需求什么样,每一个机柜怎么放,可能有什么问题。我们会有一系列的产品和工具,包括我们热量分析流的工具,来帮助你,在你建设以前,在你规划阶段,我们帮助你规划,你这些设备放上去了以后,运行50%,60%,70%以后,你这个散热的效应图大概是什么样的。可能你这个规划的全部的容量都占满了以后会是什么样的一个情况,到了那个时候我们怎么样来帮助你在进一步的挖潜,这个都是我们专门有一个服务的团队帮助你去做的,这就是一个实际的情况,我们在美国数据中心专业团队到了现场,大家看一下监控状况不是很好,有一些地方非常红了,而有一些地方非常白了,这就是一个非常实际的案例,我们帮助他们救火了,调查了他们实际的服务器,交换机,储存是怎么放置的,空调怎么放置的,出风口分析,最后帮助他们提供了我们的一个服务。通过这个服务以后,我们提出了很多的建议,最后在没有增加空调的情况下我们帮助他解决了这样一个问题。

  我的演讲到现在就结束了,非常谢谢大家。