本文标题看起有点漫画感,但也有点突兀,不过我们认为这样来形容云计算与高性能计算在数据中心构建及优化策略上的不同,可能会让大家更容易理解。至于为什么要用这样一个比喻,我们还是得先从云计算和高性能计算在应用层面的差异说起。
抛开专业枯燥的术语和分析,我们完全可以把云计算和高性能计算拟人化为一家公司里的精明老板和一所大学里的顶尖教授。前者的工作状态就像是多面手,最理想的状态就是及时获取公司不同业务的状态和需求,充分融合并实时、并行地调配各种各样的资源去支持它们的推进;后者则更倾向于集中所有的资源,例如带的研究生、可用的实验室和潜在的赞助者,全部用于加速某个或少数几个研究课题的进程。
根据上面的描述,这两者的差别就在于前者(即云计算)追求的是融合、管理和分配好自己的每一份精力和资源(IT资源),用于处理多个事务(来自用户的需求),其资源的融合度越好、管理和分配的自动化程序及精度越高、处理的事务越多、处理效率越高,就越理想。而后者(即高性能计算)则是不惜一切,将所有资源或力量都投入到一件事情(计算任务)上去,解决这个事情的速度越快、越精准,就越出色。
说到这里,大家可能就明白为什么我们会提到漫画里的“流星拳”与“慧星拳”了,云计算对数据中心能力的要求就是能打出“流星拳”,以同时应付尽可能多的应用或服务需求;而“慧星拳”则是高性能计算对数据中心提出的需求,它需要聚力于一点,以求用最短的时间击倒极为强大的对手(各种高性能计算任务),就如同星矢越级击倒黄金圣斗士一样。
要求提出了,那么适用于云计算和高性能计算的数据中心又该如何来满足它们呢?承载这两类应用负载的数据中心之间又有何异同呢?我们认为用关键词的形式来加以概括比较合适,比如说云计算对数据中心需求的几个关键词有能效、融合、智能和平衡,高性能计算那边的几个关键词,则是性能、并行、能效和真实应用工作负载。
这几个关键中,能效是两者皆有的,这是因为不论是云计算还是高性能计算,背后都是具备相当规模的数据中心,这通常就意味着较高的电能消耗。例如2009年时全球高性能计算机500强(TOP500)排行榜列出的很多上榜系统就都以百万瓦计,如此高的能源支出,及其隐性的对环境的损害都要求云计算和高性能计算的数据中心必须要在性能达标的情况下尽量降低功耗,换言之,就是要有很高的能效表现。
在对能效的相同要求之外,我们看到高性能计算对数据中心的要求还有性能、并行和真实负载。这里谈到性能,是因为高性能计算对于极致性能的追求是永不松懈的,更高的性能带来的是更高效率,背后则是重大的研究成果或科学发现更快问世;并行则与性能密切相关的--目前的高性能计算系统多为集群架构,就是把一个及大量数据和复杂计算操作的任务拆分,分派给集群中的每一台服务器、每一颗处理器内核去并行处理,而后同步得出最终结果,因此并行效率越高,整体性能就越出众。所谓真实应用工作负载,则是指厂商和用户要根据真实应用的工作负载对IT设备的具体需求来构建和优化系统,而不要被通用基准测试工具、例如SPEC、Stream、Linpack等的测试数据所误导,造出“中看不中用”的系统。
综合以上几个关键词,我们就能全面了解高性能计算对于数据中心的要求了。云计算对数据中心的需求,在此前几期的《IT号外》中已多次提及,比如融合,就是指用虚拟化技术将云计算用数据中心内所有IT设备的物理界限打破,让它们形成一个便于管理、可灵活分配和易于扩展的IT资源池。而智能和平衡,则分别是指要上述IT资源的自动化管理和响应,以及数据中心内的计算、存储和网络要搭配合理,避免任何一个环节成为性能和应用的瓶颈。
针对上述需求,很多企业计算厂商都在致力于提出更理想的解决方案,例如如何让高性能计算系统在功耗得到良好控制的情况下实现下一个千倍性能提升的愿景,又或是让云计算数据中心里的所有IT设备都在能完全无须人工干预的情况下自动管理维护。而在这一过程中,英特尔作为数据中心IT设备核心平台和技术的提供商,必将扮演创新引领者或驱动者的角色,例如针对上述需求提供拥有极强并行计算能效的集成众核架构协处理器,或是能够从芯片底层就对全面虚拟化和系统自动化管理提供强有力支持的平台。本期《IT号外》后续的内容就是要结合真实应用环境来分析英特尔已实现或正在推进的相关创新,我们将从高性能计算开始,敬请关注。