计算新标杆:RAS2.0 重新定义关键业务服务器

  机会与挑战往往并存

  在讲华为关键业务服务器的RAS特性之前,在此有必要明确一点,那就是一般x86服务器厂商所生产服务器的RAS特性如何。用通俗的话解释,一般的x86服务器,其RAS特性主要依赖于处理器的RAS特性。什么意思呢?就是处理器有的特性,你这服务器可能有,处理器没有的,你这服务器基本就没有。在这里笔者特别强调了“可能”和“基本”两个词,“可能”意味着即便处理器有这项特性,但厂商不一定有能力把它用起来,而“基本”则意味着如果处理器没这项特性,厂商几乎也没能力通过其他方面做弥补。

  其实,“可能”和“基本”两个词也是在笔者看来做x86关键业务服务器的两个层面,第一个层面是你有能力实现x86处理器原有的特性,二是在基础上还能做进一步的深化。做个形象的比喻,第一个层面好比考试时的必答题,第二个层面则是加分题,能完成必答题说明你已经有一定的实力,而只有答完加分题才能脱颖而出。

  因此,之所以说华为走在了关键业务服务器的前列,也是因为其不仅能够完成必答题,而且加分题做的也不错。比如,在必答题项,华为能够100%实现英特尔至强E7系列处理器的RAS特性;而在加分题项,华为深入每一个器件,以保证最终产品的可靠性。

  华为自研的BMC(板载管理芯片)

  具体而言,以必答题为例,为实现100%的Intel Run Sure RAS特性,华为从底层芯片(包括板载管理芯片BMC、存储控制芯片等)到操作系统(华为Euler OS)均考虑到了可靠性设计。举个例子,其自研的BMC和BIOS凭借固件优先模式能够先于操作系统发现并处理故障,通过此项技术可屏蔽60%的可能引发操作系统宕机的故障;再比如,在存储控制芯片中,华为利用自研的均衡型读写磨损算法,可有效避免存储颗粒高频度非均衡读写导致的存储设备寿命提前结束、数据丢失等问题,实现5个9的数据可靠性。更多华为独有的创新之处这里不再一一列举,就像前文所讲从底层芯片到操作系统每个细节都体现着华为的创新精神。

  RAS2.0,加出来的1.0体现在哪?

  说完了必答题,我们再讲讲加分题。如果说能够100%实现处理器本身RAS特性所生产的服务器我们称其RAS特性为1.0水平的话,那华为关键业务服务器俨然就是2.0的标准。下面我们看看华为是如何深入每个器件保证系统可靠性的。简单来说,就是两个原则,使用正确的器件和正确的使用器件,这不是绕口令,前者代表会选,后者意味着会用。这么听起来可能比较抽象,下面通过一个较为完整的流程,带你大致了解下华为对于器件的选择和使用。

  首先,在器件供应商的选择上,华为会采用TQRDC-ES原则,分别从技术、质量、响应、供货表现、社会责任、环境保护等多个层面进行严格筛选。其次,器件选定后,华为会100%采用降额设计,也就是使器件工作中所承受的压力(主要是电应力和温度应力)低于额定值,以达到降低器件故障率,提升可靠性的目的,而且在此基础上,华为还设有专门的器件中心对器件进行工艺剖析、失效分析,以确定器件能够满足华为的要求。

  随后进入下一阶段,FMEA:failure mode and effect analysis(失效模式和影响分析)。在该阶段,华为会分析所有故障影响,优化故障管理能力。对于严重故障,要求避免;对于需要处理的故障,要求能检测并定位到FRU。接下来是高可靠硬盘设计、热设计、冗余&热插拔设计。

  到此并不算完,经历过所有这一切研发、生产出的成品还要经历一系列严苛的测试,比如降额审查(对单板选用的器件进行降额审查,以确保所选器件满足降额要求)、环境气候测试、振动冲击试验、EMC试验等,最终才会出现在客户面前。

  可能以上筛选、测试、设计环节听着比较抽象,我们看看通过这一套流程最终得到的产品究竟是什么样。鉴于我们不可能把产品所有方方面面的特性都列举在此,因此只举几个典型的例子来说明一下。比如,全模块免开箱更换部件设计,1分钟就能免工具实现部件更换;再比如全模块100%热插拔设计,像风扇、电源、硬盘的热插拔已不值一提,而包括CPU模块和内存板的热插拔均能在华为关键业务服务器上得以体现。除此之外,还有像PFA(预故障分析)、分区技术也都处于业界领先地位。