严苛测试标准成就华为服务器高可靠、低故障的未来 原创

在服务器市场中,设备的可靠性一直是用户采购时的重要评估项。而这些特性在设备供应商的生产过程中一般会以故障率来体现。目前在服务器市场中,华为服务器相对业界故障率低了15%。

至顶网服务器频道 08月14日 北京报道(文/李超):在服务器市场中,设备的可靠性一直是用户采购时的重要评估项。而这些特性在设备供应商的生产过程中一般会以故障率来体现。目前在服务器市场中,华为服务器相对业界故障率低了15%。那么华为又是如何做到如此低的产品故障率的呢?下面让我们来具体了解一下。

严苛测试标准成就华为服务器高可靠、低故障的未来

华为服务器遵循严苛的测试标准

华为服务器在生产过程中会经历包括设计、测试、生产、物流、应用在内的整个生命周期,而每一台华为服务器在研发阶段都会依托华为公司GCTC(全球可靠性实验室),进行严苛的测试,以便改进设计,提升服务器产品的质量和可靠性表现,从而降低客户的故障率和业务宕机时间。

一般来讲,环境测试就是对整个生命周期中的常见环境因素及试验目的所进行的测试工作,其中,常见的环境因素包括气候条件:高低温、湿度、气压、风雨、冰霜等;机械条件:冲击、振动、摇摆、噪声、恒加速度等;生物条件:霉菌、有害动物、海洋生物等;辐射条件:太阳辐射、电磁辐射、核辐射等;化学活性物质:硫化氢、二氧化硫、盐雾等;机械活性物质:砂粒、尘等均要进行逐一测试。

除了以上对环境的测试之外,值得一提的是,华为服务器还要进行一系列的试验性测试,这主要是为了验证产品是否能达到规定的指标要求,通过这些测试能够暴露出产品在设计、工艺、材料等方面的缺陷,为今后产品的进一步升级换代提供有价值的数据和指标信息。

而在对场景的测试中,华为并不只是简单的遵循行业常规的一些测试标准,而是不断结合来自客户本身的实际场景进行相关测试。如华为将场景主要划分为三个场景,室内、半室内和室外。在室内环境中又分为中心机房(电信机房)、中心机房(数据机房)、简易机房、次中心机房、室外柜内/密闭室外柜和办公室与居室等。半室内主要包含:楼道(网络箱)、车库和直通风机柜。在室外环境中包括:室外地面、抱杆、挂墙等。

在对环境标准的测试中,华为一贯秉承严格的测试执行标准,还针对某些特定指标提高了测试和验证的相关指标。如在非工作温湿度测试中,由于测试条件严苛,是否出现设备腐蚀等现象;在工作温湿度测试中高低温进一步扩充5℃;在低气压测试中,低气压是否出现降额;以及在噪声测试中,加载软件是否一致(服务器&存储),与热设计对齐等等。

例如,在温湿度测试方面,温度规格是-70℃~180℃,湿度规格是10%~98%RH,温变率规格是15℃/min,能够进行高温、低温、温度循环及湿度测试。还有通过太阳辐射试验箱,可以模拟室外产品在太阳辐射下的影响,能够实现3个方向的辐照,可以模拟不同纬度的太阳辐照水平。另外还有步入式温箱,用于大型产品,可以模拟出产品在热带雨林中使用时遇到大雨的场景。以及灰尘试验箱、降雪和结冰测试、上电盐雾试验箱等等,诸如此类的测试,华为实验室一应俱全。

另外,华为还对硬盘托架减震和减震垫(高阻尼材料)进行开发测试。例如兰州局点2011年底硬盘失效率高,导致客户满意度下降。经过分析发现主流设备厂商均有减震措施,而业界也有相应要求。因此通过一年多的研发,在2013年最终落地,实现硬盘和托架之间的减震垫和阻尼效果,并综合考虑了硬盘的转速等因素,特别是过滤了高频振动,例如机框的固有频率、风扇的频率等。这项改进造成使得成本提升2元左右,生产也多了两到三个工序。

以及在硬盘背板及内存防硫化方面(防尘:粉尘导致接触故障,无尘车间,金手指自动擦洗等)。涂覆工艺由化学银提升为新工艺。

同时,华为方面考虑到机房装修、机房蜂鸣器等也有可能导致共振。由于系统功耗的提升导致风扇转速提高,因此风扇本身也是振动源,对此华为也针对风扇框做了减震设计。基于以上设计使得硬盘的返还率低于业界水平。而且,华为还与工信部联合制定了IT产品抗震规范,发布了国内第一套测试规范。

在对模拟场景的测试中,华为还做到了模拟产品在物流环节中遭受碰撞、冲击、跌落、挤压等条件下的包装及产品的环境适应性的相关测试,这也是在业界比较领先的一项测试标准。另外,环境实验室还能进行运输、噪声、海拔高度、防水、盐雾等各种模拟测试。在防水试验方面,实验室能够模拟15级台风的风吹雨设备与30米深水压测试设备。

值得一提的是,华为还针对全球170多条物流路线进行详细路谱记录和大数据分析(振动数据等),有针对性的制定包装运输和测试标准,使产品可以满足全球的运输要求和标准。例如,日本客户要求服务器表面不能有一丝划痕。2014年应高端服务器/存储的要求,采集了运输路线数据并跟测试标准进行比对,并对运输路线和运输标准提出新的要求。为此华为物流部开发出新线路并进行新线路数据采集,比如:中欧长途铁路、中国-中南半岛、中国-俄罗斯铁路、中国-巴基斯坦公路、尼泊尔公路、中印公路等。

以上这些测试,都是通过HALT实验室(Highly Accelerated Life Test)来完成的,HALT是一个特殊的研发阶段测试。目的主要是尽快发现华为服务器产品的缺陷,然后对产品缺陷加以改进。

据悉,在HALT实验室中,有最先进的设备去满足特殊测试项目,这个试验箱能够进行一种高应力的综合测试,除了能达到-100℃低温、200℃高温外,同时还能提供宽范围频率的振动测试,并且这个设备提供的温变率能够达到60℃/min,也就是1℃/sec,为什么能达到如此快的温变率呢?这是因为这个设备是由液氮来制冷的。因此通过这种高应力的综合测试,华为才能够非常快的发现其产品上的缺陷,然后加以改进,从而使得产品具有更高的可靠性。

针对安全规范的权威测试

什么是电气安全?其实就是设备在正常使用及单一故障条件下,不会产生人身伤害和着火等危险。在电气安全方面,华为的安全实验室建立于2000年。安全实验室的职责是对产品的安全性能进行评估和测试,确保产品安全可靠,防止产品在使用过程中发生电击,过热,着火,能量,辐射,化学和机械方面的危险,降低电气产品对人身(动物)、财产造成的伤害和损失,提高产品的品质。

当前,华为安全实验室可以进行多达200个以上的安全测试项目, 并且所有测试项目的测试数据是被国际权威认证机构所认可的。例如温升测试,主要是验证设备在正常工作条件下或单一故障条件下设备关键器件的温度不会超过最大限值。大家知道,绝缘材料温度超过限制后,会导致设备碳化起火、或者电击等事故。

另外,还有针对正常过程中拔掉风扇、泄放电1秒之内降到合规标准、重500g铁球跌落1.3M砸击等极端测试项目。

除此之外,诸如暴力插拔导致背板元器件损坏的相关测试,根据测试结果会更改元器件位置或互连layout,避免应力集中区,减少烧机风险,并通过测试分析原因,改进了产品的设计,这类测试都会结合产品实际使用环境和情况进行调整。

通过长期技术和时间基础,华为逐步建立起从标准规范到产品设计、检测认证、技术研究、能力传递的一整套电气安全保障体系,并通过对着火危险、电击危险、机械伤害、烫伤危险、激光辐射、能量危险、化学危险等七大危险制定了严格的安全规范。更重要的是在实施阶段,华为始终遵循以客户本身需求为导向进行概念、计划、开发、验证、发布,最后到产品服务的全生命周期的标准,最终保障交付给客户满意的合格产品。

严格执行“坏版”销毁策略

电子产品在生产阶段和投入市场之后,都会有一定数量的残次品。华为服务器虽然故障率低于业界15%,但因为生产量巨大,每年也会有一定的数量的“坏板”产生。那么这些“坏版”到底流向哪里了呢?

面对坏板的处理,业界一般采取两种方式:返修后流回市场或直接销毁。而服务器厂商大多选择返修后流回市场的这种方式,原因是直接销毁成本损失太高。

而作为华为而言,为了保证服务器在推向市场后的高可靠性,不让残次品流回市场,因此定期会对生产中出现的“坏版”进行集中销毁。

在服务器的销毁流程中,首先会对贵金属进行回收,之后数以万计的“坏版”和市场返修的服务器将一起被运送到销毁工厂进行每周一次的集中销毁,以防止残次品再次流入市场。

来源:至顶网服务器频道

0赞

好文章,需要你的鼓励

2017

08/14

15:39

分享

点赞

邮件订阅
白皮书