至顶网服务器频道 10月30日 新闻消息: 天梭M13关键应用主机是浪潮自主研制的在线交易处理性能最强的单机服务器系统,面向对稳定性和可用性极高的银行、政府、大企业的超大型数据库应用设计,具备比肩大型机的处理性能。要持续支撑如此强悍的业务处理能力绝非易事,浪潮汇聚在服务器研发、维护领域多年成功经验,为天梭M13主机配备了各项尖端RAS技术,助力客户业务长久稳定运行。RAS特性中的R"Reliability"高可用性对于大型关键应用主机来说尤为关键,其作用体现在及时应对突发故障以及警示维护人员规避故障风险上,可以显著延长服务器整系统平均无故障时间,维持客户关键应用持续稳定运行。完备的高可用性是服务器达到"五个9"的重要衡量指标之一,本文介绍天梭M13关键主机的众多高可用技术之一-FMS故障管理系统。
快速准确找到问题已成为一个问题
如今随着客户业务类型及业务量的不断攀升,生产系统所产生的故障信息也越来越多。为了保证系统的正常运行,很多数据中心都会实时监控系统产生的消息,希望能够及时发现系统中存在的潜在问题。然而,随着交易数量的不断增加,大量消息的产生,让人应接不暇,监控系统也变得越来越困难。对于一个庞大的系统来说,一旦问题出现,想从浩如烟海的故障消息中去定位这个问题是一件异常困难的事。对于一些大型的业务系统,一天所产生的日志量可能达到几十个G的数量级。 要在这些数据中去寻找问题出现的根源,无疑是一项重大挑战。因此,急需一种能够方便监控系统和定位的问题的工具。FMS 就是在这样的需求下,应运而生的。
如何找到问题--FMS自动化定位,预测、容错
FMS故障管理系统是一套完整的服务器软硬件健康管理容错保护系统,是为浪潮服务器打造的"健康卫士360",具有故障自动化定位,预测、容错和自动化故障处理的功能,支持多层级故障管理架构自主扩展,自动故障诊断及智能故障预测,同时通过浪潮服务故障诊断数据库,建立了故障的数据化分析和科学预测的平台。
不同于集群或单机服务器监控软件,FMS故障管理系统采取轻量级故障信息捕获技术,对于大部分故障事件的处理采用主动通知方式,当故障发生时主动报告给故障管理系统,无故障发生时不消耗系统资源。机器正常运行状态下,FMS故障管理系统对于正在运行的业务不产生任何干扰,故障管理系统CPU占用不超过1%,内存占用低于5M,对系统性能没有任何影响。
如何处理问题--FMS的实战服务器故障规则库
浪潮多年服务器销售、维护经验,搭建了一整套基于实战的服务器故障规则库,积累了丰富的故障判断规则和处理经验。庞大的故障诊断规则数据库,支持BMC、CPU、内存、磁盘、网络、XFS、PCIE、MD、死锁、内核等多设备故障检测诊断,每条规则都经过了严格的测试来验证其准确性,确保其在生产环境中稳定可靠。经由这些规则可以诊断检测出机器设备或系统的故障问题,并划分故障严重等级,及时给出处理方案。
如何提前预警--FMS学习模型
涵盖CPU,内存,网卡,文件系统等服务器硬件软件各个层次的故障信息。能够对磁盘进行故障预测:通过大数据的积累分析,建立学习模型,实现提前预测并预警磁盘故障,提示客户在故障发生前进行妥当的维护处理。支持节点高可用方式,节点发生故障,无法登陆界面的时候,可以利用其它机器分析故障机器的信息。例如:当一个内存条(内存页面)上,24小时发生 10个"Memory write error"故障的话,就将该内存页面离线并报告该内存条的具体位置,通知管理员及时更换内存条。
如何降低运维难度--FMS健康状态评估系统
FMS故障管理系统提供整体健康状态评估系统,周期性的全方深度检查服务器的每一个角落,为客户直观展示服务器各组成部件的健康状态、故障情况以及可能产生的安全隐患。与故障管理工具相互配合,对检查出来的故障和隐患进行自助修复、隔离,若有硬件级别无法处理的故障,则会提示联系厂家进行维修和更换,这种提示的定位可以精确到主板的某一个槽位上,对于天梭M13这种庞大的系统,硬件级别的精准故障定位极大程度降低了运维人员的维护难度。
浪潮天梭M13系统不但能提前预测、预警,又能快速自动化定位,找到问题,处理问题,为客户关键应用持续稳定运行保驾护航。
好文章,需要你的鼓励
"当我看到梵高的每一笔中都有他的痛苦时,才明白我们看的不是作品,而是作者的人生。AI正以惊人的速度接近人类水平通用智能,让Google从'伦敦那帮疯子在搞AGI'转变为全公司共识。DeepMind让AI'合理地幻觉'来创造突破,就像Astra技术让用户第一次惊呼'AI能做到比想象更多'——这不仅是技术革命,更是重新定义创造力的开始。"
英伟达2025Q1营收440亿美元创纪录,数据中心业务暴涨73%至390亿美元。黄仁勋直言:"中国是全球最大AI市场,出口管制只会让美国失去平台领导权。Blackwell架构推动推理性能提升30倍,微软已部署数万块GPU,AI工厂正成为各国数字基础设施核心。"
来自耶路撒冷希伯来大学的研究团队开发了WHISTRESS,一种创新的无需对齐的句子重音检测方法,能够识别说话者在语音中强调的关键词语。研究者基于Whisper模型增加了重音检测组件,并创建了TINYSTRESS-15K合成数据集用于训练。实验表明,WHISTRESS在多个基准测试中表现优异,甚至展示了强大的零样本泛化能力。这项技术使语音识别系统不仅能理解"说了什么",还能捕捉"如何说"的细微差别,为人机交互带来更自然的体验。
这项研究提出了"力量提示"方法,使视频生成模型能够响应物理力控制信号。研究团队来自布朗大学和谷歌DeepMind,他们通过设计两种力提示——局部点力和全局风力,让模型生成符合物理规律的视频。惊人的是,尽管仅使用约15,000个合成训练样本,模型展现出卓越的泛化能力,能够处理不同材质、几何形状和环境下的力学交互。研究还发现模型具有初步的质量理解能力,相同力量对不同质量物体产生不同影响。这一突破为交互式视频生成和直观世界模型提供了新方向。