服务器“压力测试”作为互联网行业必修课已遍布电商平台、视频网站、游戏运营等众多应用场景。
但一台合格服务器出厂只有“压力测试”就足够了吗?就此,宁畅信息产业(北京)有限公司的测试工程师,就给出了详细解答。
宁畅测试负责人表示,要生产出具备“德智体美劳”全面素质的服务器,需要通过不断测试,使其硬件功能稳定,电性能可靠,信号质量纯净。
每一台宁畅服务器在电性能测试方面,需经过如:Base function基本验证测试;Efficiency效率测试;Inrush Current电流冲击测试;Overshoot & Undershoot过冲和下冲测试;Phase margin相位裕度验证;Voltage电压测试;Power rail的Open & Short、Voltage、Leakage漏电测试;Sequencing 上电时序以及Clock基本测试,以及重要的CPU VRM测试。
只有信号纯净,才能保证数据传输时的质量。宁畅服务器不仅测试高速总线,如PCIE、SAS、SATA、UPI、DMI、DDR、USB2.0/3.0、10GBASE-KR、10GBASE-T、GbE、Clock、10G/25G Serdes以及NCSI等信号。低速总线,如SMBus、I2C、IPMB、SPI、 eSPI、LPC、VGA、Power Good and Reset等信号也会全部检查。
在板级严谨测试外,宁畅服务器还需做全面兼容性测试,如针对每一个客户的AVL,像内存、硬盘(HDD,SSD,NVMe)、网卡、阵列卡等常见扩展卡的兼容性测试,同时这些测试都会使用客户自用操作系统去做全面验证,模拟客户体验并给出反馈;其中针对Performance的调优测试,宁畅产品多次打破Spec Bechmark的记录。
服务器在通常环境下可顺畅运行,遇到“高温”、“高湿”等严苛环境也得能“吃土耐劳”。
宁畅测试团队本着“宁静、顺畅”理念,全面设计了“Thermal散热测试和Reliability(可靠性)测试”,其覆盖环境有:高温高湿场景;低温场景;盐雾场景;HALT加速寿命测试场景;Four Corner拉偏和AC loss等疲劳测试场景。
此外,Drop跌落、Shock冲击、Vibration震动、 Storage仓储测试,电磁兼容电磁干扰(electromagnetic interference, EMI)和电磁耐受性(electromagnetic susceptibility, EMS)这些都是产品包装、运输、上线和离线场景下必须测试环节。
做完以上基础测试,还得根据用户需求做特定软件环境与应用场景(包括压力测试)等等性能与稳定性测试。
一款合格的服务器产品,从设计生产到真正交付用户,粗算每台做一千项测试是妥妥的。
但是!仅做这些测试,还不能保证服务器达到宁畅标准出厂。
针对测试中发现的Bug,研发工程师需做系统性及时调整与处理。往往一个信号干扰问题,就需要经过多轮调试。
关键,服务器产品交付都是短时间成千上万台,要让每台服务器经过数千项测试并及时调整Bug,则需要构建系统的自动化测试体系,并在产品研发和满足用户定制化的过程中同步进行测试,以保证产品可按时、高质量地交付到用户手中。
“好比一台车要在高速路上边跑边组装、边检验,车停下来便完成所有测试与装配,用户接过方向盘就可开走。”宁畅测试负责人介绍“边造边测”非常考验宁畅测试与研发人员的技术功底与经验积累,关键还得掌握测试体系与产品研发的核心技术。
行业发展来看,只有将客户测试需求全面实现自动化,才能更好为客户服务,提供高质量产品。
而从行业中来看,如宁畅一样具备全面自动化测试能力厂商,仅占厂商总数量的2%左右。“除了人力、物力上的投入,关键还得有相关用例经验积累。”宁畅测试负责人表示,服务器测试自动化门槛很高,不仅需要测试人员,还需研发人员,在了解服务器同时掌握众多语言等技能。
图说:不同厂商测试能力比较
诸如Shell,Python,C,Java,Go,Ruby等工具语言需要掌控;如Jenkins,Django,react,Flask等架构理解也必不可少。只有掌握这些基础技能,才能面向不同业务采用不同语言与框架,如:图像数据处理要采用难度较高的OCR技术。一套完整测试系统需经过十几年的千锤百炼,才能为客户提供既敏捷又高效的服务。
图说:宁畅自动测试体系架构
目前,宁畅具备自主研发测试相关软件/硬件能力,可构建自动化测试平台,实现面向用户提供测试体系。宁畅自动化测试平台NASA(Nettrix Autotest and Stress Application)从测试环境搭建、测试、测试日志收集、测试数据分析,到最后的测试bug提交,已实现全面自动化,测试用例自动化覆盖高达95%以上。
图说:宁畅自动化任务、服务器管理界面
其中:BMC Lab测试用例14000+项,自动化覆盖95%;BIOS Lab测试用例9700+项,自动化覆盖 98%;Hardware Lab测试用例14000+项,自动化覆盖 93%;Performance Lab测试用例5700+项,自动化覆盖 97%。
此外,宁畅智能测试故障分析引擎,通过知识库黑白名单对比,对Bug实现自动定位、自动提交,并通过整合基础设施和业务调度,以及数据挖掘技术提升测试有效性,为客户提供全链路的质量保障。
好文章,需要你的鼓励
Gartner预测,到2030年所有IT工作都将涉及AI技术的使用,这与目前81%的IT工作不使用AI形成鲜明对比。届时25%的IT工作将完全由机器人执行,75%由人类在AI辅助下完成。尽管AI将取代部分入门级IT职位,但Gartner认为不会出现大规模失业潮,目前仅1%的失业由AI造成。研究显示65%的公司在AI投资上亏损,而世界经济论坛预计AI到2030年创造的就业机会将比消除的多7800万个。
CORA是微软研究院与谷歌研究团队联合开发的突破性AI视觉模型,发表于2023年CVPR会议。它通过创新的"区域提示"和"锚点预匹配"技术,成功解决了计算机视觉领域的一大挑战——开放词汇目标检测。CORA能够识别训练数据中从未出现过的物体类别,就像人类能够举一反三一样。在LVIS数据集测试中,CORA的性能比现有最佳方法提高了4.6个百分点,尤其在稀有类别识别上表现突出。这一技术有望广泛应用于自动驾驶、零售、安防和辅助技术等多个领域。
人工智能正从软件故事转向AI工厂基础,芯片、数据管道和网络协同工作形成数字化生产系统。这种新兴模式重新定义了性能衡量标准和跨行业价值创造方式。AI工厂将定制半导体、低延迟结构和大规模数据仪器整合为实时反馈循环,产生竞争优势。博通、英伟达和IBM正在引领这一转变,通过长期定制芯片合同和企业遥测技术,将传统体验转化为活跃的数字生态系统。
中国电信研究院联合重庆大学、北航发布T2R-bench基准,首次系统评估AI从工业表格生成专业报告的能力。研究涵盖457个真实工业表格,测试25个主流AI模型,发现最强模型得分仅62.71%,远低于人类专家96.52%。揭示AI在处理复杂结构表格、超大规模数据时存在数字计算错误、信息遗漏等关键缺陷,为AI数据分析技术改进指明方向。