科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道X86服务器华为:一台高可靠的服务器是如何“炼”成的?

华为:一台高可靠的服务器是如何“炼”成的?

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

安全可靠这个词总被大家所提及,说到底是因为什么呢?还不是因为大家怕了,一旦系统出现故障,后果可想而知,对用户来说简直就是天大的噩耗。

来源:ZD至顶网服务器频道【原创】 2015年10月9日

关键字: 华为 服务器

  • 评论
  • 分享微博
  • 分享邮件

ZD至顶网服务器频道 10月09日 新闻消息: 安全可靠这个词总被大家所提及,说到底是因为什么呢?还不是因为大家怕了,一旦系统出现故障,后果可想而知,对用户来说简直就是天大的噩耗。说到业务的可靠性时,经常会提到所谓的4个9或者5个9,也就是99.99%与99.999%。从数字上来看,4个9与5个9的差距就是0.009%,还不到0.01%。但是对于系统而言,恰恰是这不到0.01%的差距,决定了系统完全不在一个档次上。

华为:一台高可靠的服务器是如何“炼”成的?4个9与5个9的可用性,在一年的时间维度上,相差了47.3分钟(平均一个月相差4分钟,如果一家银行一年内有这么长时间不能提供服务,后果可想而知。虽然可用性决定于硬件与系统软件,但无可否认,硬件平台的可靠性将为高可用性提供重要的保障

单纯就一个系统而言,可靠性并不完全取决于硬件,而是由软件和硬件来共同决定的,但前提是软件和硬件都是安全可靠的,无论面对几个9的用户诉求,对于解决方案提供商而言,归根结底就是生产出具备高可靠性的产品。

作为服务器提供商的华为,在面对用户对于可靠性的诉求时,从元件筛选、硬件设计流程、设计创新,以及最后的品质检测,无不体现出华为对服务器的高可靠特性的追求。

从元件开始:杜绝瑕疵

千里之行始于足下,服务器上成百上千的电气元件都有可能让加强可靠性的努力功亏一篑,所以选择可靠的元件是重中之重。华为在选择供应商时选择采用TQRDC和ES原则,分别对技术、质量、响应、供货表现、社会责任以及环境保护等方面进行考量,在众多供应商之中选出能满足这些标准的供应商。

同时在器件的降额设计上,华为也有着自己的想法,要求器件都满足降额的设计方式,这使得器件在工作中所承受的使器件工作中所承受的应力(主要是电应力和温度应力)低于额定值,以达到降低故障率,提升使用可靠性的目的。

华为:一台高可靠的服务器是如何“炼”成的?有没有感觉这两个设计标准的目的都是一样的呢?没错,还是以安全可靠为标准来要求的,足以看得出华为服务器在生产的时候,无论是哪一款服务器,安全可靠都是唯一的前提,也是最为重要的标准。

并且在选择器件时,华为服务器对于器件的等级也是极为看中,首选的有以下三种,分别是高分子电容、X7R电容和镀金连接器。

华为:一台高可靠的服务器是如何“炼”成的?通过上图可以将三种器件的优势很清楚的了解到,以寿命长为特点的高分子电容、以高可靠为特性的X7R电容以及以接触可靠性高为特质的镀金连接器都将为华为的服务器带来高可靠性的品质。

深度品控 细化分解

在现实中,服务器所需要的元器件也在不断的推陈出新,但这些新的元件的素质到底如何?并不能仅凭供应商的一面之词。为了在器件工艺上有更深层次的剖析,确保所采购的元件并非“外强中干”,华为设有专门的器件中心,配备先进的器件分析设备,如双束聚焦离子束显微镜、等离子刻蚀机等,对新器件进行剖析、验证、失效分析等,以确定器件的工艺水平、质量满足华为严格的要求。

华为:一台高可靠的服务器是如何“炼”成的?双束聚焦离子束显微镜

华为:一台高可靠的服务器是如何“炼”成的?等离子刻蚀机

提到双束聚焦离子束显微镜和等离子刻蚀机也许大家会很陌生,那就来简单得介绍一下,聚焦离子束(Focused Ion beam, FIB)的系统是利用电透镜将离子束聚焦成非常小尺寸的显微切割仪器,那么双束聚焦离子束显微镜是什么呢?“双束”可以理解为能力加倍,“显微镜”就更好理解了,那就是具有显微的功能,总的来说,双束聚焦离子束显微镜可以帮助华为在产品的制造过程中提供了精细化的工艺。

而等离子刻蚀机呢?又称等离子表面处理仪。等离子刻蚀,是干法刻蚀中最常见的一种形式,其原理是暴露在电子区域的气体形成等离子体,由此产生的电离气体和释放高能电子组成的气体,从而形成了等离子或离子,电离气体原子通过电场加速时,会释放足够的力量与表面驱逐力紧紧粘合材料或蚀刻表面。

在选料完成之后,经验严格筛选的元件将通过具体的电路设计组合,以构成最终的服务器,而在这一阶段华为引入了FMEA来提高服务器的高可靠设计水平。

FMEA设计 防患于未然

在企业实际的质量管理体系运作中,虽然都会去编制一份有关预防措施的形成文件的程序,但真正可以达到预见性地发现较为全面的潜在问题通常存在较大的难度。从而为了有效地实施预防措施,将可能存在的潜在问题显现出来,就需要一个从识别问题到控制潜在影响的管理系统,即潜在失效模式及后果分析(Failure Mode and Effect Analysis),简称为FMEA。

FMEA即在产品设计阶段和过程设计阶段,对构成产品的子系统、零件,对构成过程的各个工序逐一进行分析,找出所有潜在的失效模式,并分析其可能的后果,从而预先采取必要的措施,以提高产品的质量和可靠性,从而确保用户满意的一种系统化活动。

在产品设计阶段,FMEA针对所有板间信号/关键器件展开分析,可确保无故障遗漏。用以分析所有故障影响,同时做到优化故障管理能力。在这个过程中存在着两个标准,那就是对于严重故障,要求尽最大可能避免;对于需要处理的故障,要求能够监测并定位到现场置换单元(FRU,Field Replacement Unit)。

FMEA让华为服务器在设计阶段就最大限度消除了潜在的可靠性隐患,确保了各组件之间最有可靠的协同状态,在产品没有发生故障之前就可以提前进行分析,华为就是要给服务器提前进行下“体检”,在出现故障之前提前预知,把损失降到最小化。

不过FMEA更像是一个整体的产品设计管理体系与品控模式,而在具体的设计创新方面,华为也在进行着重点突破。

重点的高可靠性创新

华为在服务器具体设计上,从具体的应用场景出发,将重点放在了存储系统、散热系统与系统备用的设计上。

在硬盘存储系统方面,华为采用先进的防腐蚀制造工艺,解决了业界常见的硬盘腐蚀难题,既保证了有效散热,降低故障概率;又易于维护,方便快捷。同时,华为还自研了硬盘托架,并采用航空减震材料,能有效抗震,保证了硬盘安全,大大降低故障概率。最后,配合完善的硬盘故障监控:对硬盘无法读写、硬盘RAID信息损坏、硬盘I/O速度变慢、硬盘温度过高、SMART异常等故障进行检测和告警。

这其中,在设计早期就评估各种振动风险,优化结构设计,合理减振,来规避振动风险,比如:采取合理的风扇调速策略,和风扇组件的减振措施,避开硬盘敏感频率,从而减小旋转振动对硬盘性能的影响;采用合理的包装设计,有效降低了运输过程中振动冲击对系统的影响,保证物流可靠性。

在散热方面,华为采用了多项先进散热技术,包括:双面蜂窝孔板技术——实现开孔率43%,同比友商提升15%,提升系统进风量;系统矢量气流精细化管理——冷却气流得到高效利用,解决105W、130W、155W全系列CPU的散热需求;铝基板镶铜散热器技术——比常规散热器重量减轻45%,热阻减少,散热效率更高。最值得一提的是,华为采用了PID(proportional-integral-derivative:积分/微分/比例)精细化调速,调速精度在1度以内,响应速度业界领先,保证散热同时时整机能耗最优耗。

在系统备用方面,主要考虑的就是热插拔设计,华为服务器的电源模块、内存模块、风扇模块、存储模块、管理模块、交换模块等关键模块均采用冗余&热插拔设计,保证客户可靠稳定的运营环境。

在产品设计定型并产出成品后,就该进入产品验证阶段了,华为显然不会让自己的产品轻松过关,在最后的品检阶段准备了更为严格的测试。

超出业界标准的出厂检测

首先要进行的检测就是降额审查,它将对单板选用的器件进行降额审查,以确保所选器件满足降额要求,这与上文介绍到的降额设计遥相呼应。

接下就是苛刻的气候环境测试,华为采用超出业界标准的指标,进行板级高加速寿命试验(HALT,Highly accelerated Life Test),这对于服务器来说将是地狱般的检验。

板级HALT试验主要是为了加速暴露母板的设计缺陷和薄弱点,并对暴露的缺陷和故障从设计、工艺和用料等诸方面进行分析和改进,从而达到快速提升产品可靠性的目的。在对故障进行分析与纠正后,要以相同条件的试验验证解决方案的有效性,以提高产品的可靠性。

最后,华为将针对服务器产品采用超过业界标准的EMC试验以确保服务器产品在共同的电磁环境中能正常工作。

说到EMC测试,简单理解为就是电磁兼容,是对电子产品在电磁场方面干扰大小(EMI)和抗干扰能力(EMS)的综合评定,是产品质量最重要的指标之一,电磁兼容的测量由测试场地和测试仪器组成。华为服务器在经过了EMC的测试之后,能带来什么优势呢?通过下图可以看到,从多个方面上来看,华为服务器的EMC竞争力都有着很明显的优势,抗干扰性和抗雷击能力高于友商,可见华为的服务器具有更高的环境适应性。

华为:一台高可靠的服务器是如何“炼”成的?“炼”出来的质量大奖

从以上的介绍中,可以看出一台高可靠的服务器其实需要不同阶段的全方位努力才有可能做到,就这一点来说。设计出一台高可靠服务器,是困难的,它需要对元器件有着很好的品质管理,对于产品设计有很好的自我纠错的能力与流程,而在具体的产品设计中还要有自己的创新,以进一步有别于友商,最后要给自己制定更为严格的出厂检测标准。这相当于在一种近似于“自虐”的环境中,向客户交付出高度持久力的可靠产品。

但是,如果习惯了这一流程与过程,习惯了这种自虐,也就是说当这种意识成为了一种基因性的存在的话,交付出高可靠的服务器又是容易的。就像钢铁厂,低水平的钢厂,想研发高质量的钢材难比登天,但对于高水平的钢厂,这并不是难事,他们的熔炉里流出的都是标准化的高品质产品。其实,服务器也是一样,我想这也是华为服务器的故障率低于业界平均水平15%,并获得阿里巴巴集团唯一质量大奖的根本原因——它们就是这样“炼”出来的。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章