华为服务器 设计的艺术

  故障率低于业界15%,阿里质量大奖与腾讯最佳供应商荣耀加持,通过FMEA、HALT与EMC等高大上测试的检验,这一切描述的是华为服务器。

  凭借创新、可靠、安全、开放四大原则,华为服务器秉持“持续创新 让计算变简单”的理念,连续7个季度出货量排在全球第四,覆盖金融、政府、互联网服务提供商与大企业。

  华为服务器拥有稳定可靠、绿色节能、性能领先、持续创新和基于业务优化的特点,为企业关键业务保驾护航。这是如何做到的呢?

  设计:精益求精

  在华为看来,高质量、高可靠性的服务器是设计出来的。例如获得挑剔的日本客户认可的华为FusionServer RH8100 V3关键业务服务器,凭借创新的高可靠性设计、灵活扩展能力和卓越的计算性能,在Interop展上赢得了“BestofShowAward”大奖。它采用RAS2.0技术,包括电源、风扇等关键模块的热插拔技术、全冗余的硬件和软件设计架构,以及提升管理维护效率的“黑匣子”等。

  华为FusionServer RH8100 V3

  同时,使用高可靠硬盘设计,实现服务器内存和硬盘的自动装配,减少内存、硬盘人工装配引发问题的几率。再如华为刀片服务器E9000采用无源背板设计,进一步提升可靠性,避免单点故障,同时使用独立风道设计,耐40度高温,有效地保障了企业用户关键业务的连续性。

  材料:精挑细选

  服务器的用材决定着服务器的品质。这不仅仅是外表的健美结实,也包括强劲的内涵。

  华为每一台服务的材质都采用电信级器件,质量等级高于业界标准。同时,坚持被集成战略,利用EMS(电子制造服务)厂商实现产品设计、代工生产、后勤管理、产品维修等服务。

  为了掌控整个流程,华为实现严密的稽核制度,不定期稽核供应商,并派驻全职驻厂稽核人员。实时监控EMS厂质量数据,如质量数据异常会及时处理。特别是在硬盘与内存这种容易出错的领域,华为会将报错较多的问题让供应商进行出厂前测试,逆向推动供应商改进产品质量。

  此外,采用器件降频设计。主要实现高频的配件以较低的频率工作,从而达到稳定工作的目的,解决频率过高带来高发热和系统不稳定的问题。主要作用是省电,实现节能减排,还能减少维护工作。

  质量:固若金汤

  有一个水桶,它是由许多块木板箍成的,盛水量也是由这些木板共同决定。如果其中一块木板很短,则盛水量就被短板所限制,这就是我们所熟知的短板理论。

  HALT(highly accelerated life testing,高加速寿命试验)由美国军方延伸出的一种设计质量验证与制造质量验证的试验方法,主要用于产品研发设计阶段,对于暴露产品的潜在缺陷效果明显,是设计工程师提高产品可靠性的重要实验手段。

  华为引入HALT测试,利用包括振动、高低温、温度循环、电力开关循环、电压边际及频率边际测试等阶梯应力,高效激发产品可靠性潜在缺陷,识别产品的短木板,将设计问题在研发阶段暴露,发现产品缺陷、操作设计边际以及结构强度极限的方法,涉及到线路设计、工艺、元部件与结构等方面。它将原来需要花费一年的新产品可靠性实验缩短到一周,所发现的产品问题与客户应用后所发现的问题一致,是华为新产品上市前所必需通过的验证。

  不仅如此,华为还采用FMEA(Failure Mode and Effects Analysis,失效模式与影响分析)这种可靠性设计方法,发现、评价产品或过程中潜在的失效及其后果,找到能够避免或减少潜在失效发生的措施并且不断地完善。能够以低成本对产品或过程进行修改,并找到能够避免或减少这些潜在失效发生的措施。

  为此,华为专门成立一个FMEA团队,包括生产总监、工艺工程师、产品工程师、测试工程师、质量工程师、材料采购员以及项目经理,由质量工程师领导该团队。从而搭建相应的失效分析平台,配备适当的分析工具。

  当产品在HALT实验中出现故障时,分析并确定产品出现故障的根本原因及影响,优化故障管理能力。对于严重故障,要求避免。对于需要处理的故障,要求能检测并定位到FRU((field-replaceable unit,现场置换单元),让用户或技术员快速轻松地拆下电路板或零件并重新安装,使系统停止运转的时间减少到最小并且使系统可靠性达到最优。