浪潮天梭M13之故障管理系统发现问题比解决问题更重要原创

天梭M13关键主机的众多高可用技术之一—FMS故障管理系统，FMS故障管理系统是一套完整的服务器软硬件健康管理容错保护系统，为客户提供故障定位、诊断、预测等服务，保证客户关键业务长久安全稳定运行。

至顶网服务器频道 10月30日新闻消息：天梭M13关键应用主机是浪潮自主研制的在线交易处理性能最强的单机服务器系统，面向对稳定性和可用性极高的银行、政府、大企业的超大型数据库应用设计，具备比肩大型机的处理性能。要持续支撑如此强悍的业务处理能力绝非易事，浪潮汇聚在服务器研发、维护领域多年成功经验，为天梭M13主机配备了各项尖端RAS技术，助力客户业务长久稳定运行。RAS特性中的R"Reliability"高可用性对于大型关键应用主机来说尤为关键，其作用体现在及时应对突发故障以及警示维护人员规避故障风险上，可以显著延长服务器整系统平均无故障时间，维持客户关键应用持续稳定运行。完备的高可用性是服务器达到"五个9"的重要衡量指标之一，本文介绍天梭M13关键主机的众多高可用技术之一-FMS故障管理系统。

快速准确找到问题已成为一个问题

如今随着客户业务类型及业务量的不断攀升，生产系统所产生的故障信息也越来越多。为了保证系统的正常运行，很多数据中心都会实时监控系统产生的消息，希望能够及时发现系统中存在的潜在问题。然而，随着交易数量的不断增加，大量消息的产生，让人应接不暇，监控系统也变得越来越困难。对于一个庞大的系统来说，一旦问题出现，想从浩如烟海的故障消息中去定位这个问题是一件异常困难的事。对于一些大型的业务系统，一天所产生的日志量可能达到几十个G的数量级。要在这些数据中去寻找问题出现的根源，无疑是一项重大挑战。因此，急需一种能够方便监控系统和定位的问题的工具。FMS 就是在这样的需求下，应运而生的。

如何找到问题--FMS自动化定位，预测、容错

FMS故障管理系统是一套完整的服务器软硬件健康管理容错保护系统，是为浪潮服务器打造的"健康卫士360"，具有故障自动化定位，预测、容错和自动化故障处理的功能，支持多层级故障管理架构自主扩展，自动故障诊断及智能故障预测，同时通过浪潮服务故障诊断数据库，建立了故障的数据化分析和科学预测的平台。

不同于集群或单机服务器监控软件，FMS故障管理系统采取轻量级故障信息捕获技术，对于大部分故障事件的处理采用主动通知方式，当故障发生时主动报告给故障管理系统，无故障发生时不消耗系统资源。机器正常运行状态下，FMS故障管理系统对于正在运行的业务不产生任何干扰，故障管理系统CPU占用不超过1%，内存占用低于5M，对系统性能没有任何影响。

如何处理问题--FMS的实战服务器故障规则库

浪潮多年服务器销售、维护经验，搭建了一整套基于实战的服务器故障规则库，积累了丰富的故障判断规则和处理经验。庞大的故障诊断规则数据库，支持BMC、CPU、内存、磁盘、网络、XFS、PCIE、MD、死锁、内核等多设备故障检测诊断，每条规则都经过了严格的测试来验证其准确性，确保其在生产环境中稳定可靠。经由这些规则可以诊断检测出机器设备或系统的故障问题，并划分故障严重等级，及时给出处理方案。

如何提前预警--FMS学习模型

涵盖CPU，内存，网卡，文件系统等服务器硬件软件各个层次的故障信息。能够对磁盘进行故障预测：通过大数据的积累分析，建立学习模型，实现提前预测并预警磁盘故障，提示客户在故障发生前进行妥当的维护处理。支持节点高可用方式，节点发生故障，无法登陆界面的时候，可以利用其它机器分析故障机器的信息。例如：当一个内存条（内存页面）上，24小时发生 10个"Memory write error"故障的话，就将该内存页面离线并报告该内存条的具体位置，通知管理员及时更换内存条。

如何降低运维难度--FMS健康状态评估系统

FMS故障管理系统提供整体健康状态评估系统，周期性的全方深度检查服务器的每一个角落，为客户直观展示服务器各组成部件的健康状态、故障情况以及可能产生的安全隐患。与故障管理工具相互配合，对检查出来的故障和隐患进行自助修复、隔离，若有硬件级别无法处理的故障，则会提示联系厂家进行维修和更换，这种提示的定位可以精确到主板的某一个槽位上，对于天梭M13这种庞大的系统，硬件级别的精准故障定位极大程度降低了运维人员的维护难度。

浪潮天梭M13之故障管理系统发现问题比解决问题更重要

浪潮天梭M13系统不但能提前预测、预警，又能快速自动化定位，找到问题，处理问题，为客户关键应用持续稳定运行保驾护航。

来源：至顶网服务器频道

0赞

好文章，需要你的鼓励

浪潮天梭M13之故障管理系统 发现问题比解决问题更重要 原创

来源：至顶网服务器频道

2017

10/30

11:19

分享

点赞

智能体驱动全球创新浪潮，微软携手前沿伙伴迈进消费电子新未来

达索系统在CES 2026上展示AI驱动的医疗创新， 重塑精准、可预测与个性化医疗

Arm 发布 20 项技术预测：洞见 2026 年及未来发

美光推出全球首款面向客户端计算的 PCIe 5.0 QLC SSD

SanDisk重塑经典SSD品牌：WD Black和Blue正式更名为Optimus系列

福特汽车准备在车载系统中引入AI智能助手

ChatGPT推出健康模式：结合医疗数据提供个性化建议

福特推出AI数字助理及新一代BlueCruise自动驾驶技术

联想Legion Pro可卷曲概念机展现移动大屏游戏新体验

印度和新加坡在智能体AI采用方面超越全球同行

华硕CES 2026新品：更小巧的ProArt GoPro笔记本和升级版Zenbook Duo

n8n警告CVSS满分漏洞影响自托管和云版本

提速！浪潮网络“产品-方案-服务“能力全线升级

浪潮网络2024新品发布暨合作伙伴大会圆满落幕

浪潮KaiwuDB论文被数据库国际顶会ICDE2024录用

浪潮云海InCloud Sphere再次登顶SPECvirt全球第一

浪潮KaiwuDB魏可伟：AIoT，用行业定义数据库

加速数据价值兑现 浪潮海若大模型带来新动能

浪潮海若大模型业务战略正式发布

浪潮网络推出单芯片CLOS架构方案 打造极致简约的网络互联体验

落地南京！浪潮信息携手多伦科技打造，这款智慧路口可以“千城千面”！

浪潮KaiwuDB通过中国信通院“可信数据库”性能与稳定性评测

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

浪潮天梭M13之故障管理系统发现问题比解决问题更重要原创

达索系统在CES 2026上展示AI驱动的医疗创新，重塑精准、可预测与个性化医疗

加速数据价值兑现浪潮海若大模型带来新动能

浪潮网络推出单芯片CLOS架构方案打造极致简约的网络互联体验