至顶网服务器频道 10月30日 新闻消息: 天梭M13关键应用主机是浪潮自主研制的在线交易处理性能最强的单机服务器系统,面向对稳定性和可用性极高的银行、政府、大企业的超大型数据库应用设计,具备比肩大型机的处理性能。要持续支撑如此强悍的业务处理能力绝非易事,浪潮汇聚在服务器研发、维护领域多年成功经验,为天梭M13主机配备了各项尖端RAS技术,助力客户业务长久稳定运行。RAS特性中的R"Reliability"高可用性对于大型关键应用主机来说尤为关键,其作用体现在及时应对突发故障以及警示维护人员规避故障风险上,可以显著延长服务器整系统平均无故障时间,维持客户关键应用持续稳定运行。完备的高可用性是服务器达到"五个9"的重要衡量指标之一,本文介绍天梭M13关键主机的众多高可用技术之一-FMS故障管理系统。
快速准确找到问题已成为一个问题
如今随着客户业务类型及业务量的不断攀升,生产系统所产生的故障信息也越来越多。为了保证系统的正常运行,很多数据中心都会实时监控系统产生的消息,希望能够及时发现系统中存在的潜在问题。然而,随着交易数量的不断增加,大量消息的产生,让人应接不暇,监控系统也变得越来越困难。对于一个庞大的系统来说,一旦问题出现,想从浩如烟海的故障消息中去定位这个问题是一件异常困难的事。对于一些大型的业务系统,一天所产生的日志量可能达到几十个G的数量级。 要在这些数据中去寻找问题出现的根源,无疑是一项重大挑战。因此,急需一种能够方便监控系统和定位的问题的工具。FMS 就是在这样的需求下,应运而生的。
如何找到问题--FMS自动化定位,预测、容错
FMS故障管理系统是一套完整的服务器软硬件健康管理容错保护系统,是为浪潮服务器打造的"健康卫士360",具有故障自动化定位,预测、容错和自动化故障处理的功能,支持多层级故障管理架构自主扩展,自动故障诊断及智能故障预测,同时通过浪潮服务故障诊断数据库,建立了故障的数据化分析和科学预测的平台。
不同于集群或单机服务器监控软件,FMS故障管理系统采取轻量级故障信息捕获技术,对于大部分故障事件的处理采用主动通知方式,当故障发生时主动报告给故障管理系统,无故障发生时不消耗系统资源。机器正常运行状态下,FMS故障管理系统对于正在运行的业务不产生任何干扰,故障管理系统CPU占用不超过1%,内存占用低于5M,对系统性能没有任何影响。
如何处理问题--FMS的实战服务器故障规则库
浪潮多年服务器销售、维护经验,搭建了一整套基于实战的服务器故障规则库,积累了丰富的故障判断规则和处理经验。庞大的故障诊断规则数据库,支持BMC、CPU、内存、磁盘、网络、XFS、PCIE、MD、死锁、内核等多设备故障检测诊断,每条规则都经过了严格的测试来验证其准确性,确保其在生产环境中稳定可靠。经由这些规则可以诊断检测出机器设备或系统的故障问题,并划分故障严重等级,及时给出处理方案。
如何提前预警--FMS学习模型
涵盖CPU,内存,网卡,文件系统等服务器硬件软件各个层次的故障信息。能够对磁盘进行故障预测:通过大数据的积累分析,建立学习模型,实现提前预测并预警磁盘故障,提示客户在故障发生前进行妥当的维护处理。支持节点高可用方式,节点发生故障,无法登陆界面的时候,可以利用其它机器分析故障机器的信息。例如:当一个内存条(内存页面)上,24小时发生 10个"Memory write error"故障的话,就将该内存页面离线并报告该内存条的具体位置,通知管理员及时更换内存条。
如何降低运维难度--FMS健康状态评估系统
FMS故障管理系统提供整体健康状态评估系统,周期性的全方深度检查服务器的每一个角落,为客户直观展示服务器各组成部件的健康状态、故障情况以及可能产生的安全隐患。与故障管理工具相互配合,对检查出来的故障和隐患进行自助修复、隔离,若有硬件级别无法处理的故障,则会提示联系厂家进行维修和更换,这种提示的定位可以精确到主板的某一个槽位上,对于天梭M13这种庞大的系统,硬件级别的精准故障定位极大程度降低了运维人员的维护难度。
浪潮天梭M13系统不但能提前预测、预警,又能快速自动化定位,找到问题,处理问题,为客户关键应用持续稳定运行保驾护航。
好文章,需要你的鼓励
在Meta Connect大会上,Meta展示了新一代Ray-Ban智能眼镜的硬件实力,配备神经腕带支持手势控制,电池续航翻倍,摄像头性能提升。然而AI演示却频频失败,包括Live AI烹饪指导、WhatsApp通话和实时翻译功能都出现问题。尽管Meta在智能眼镜硬件方面表现出色,但AI软件仍远未达到扎克伯格提出的"超级智能"目标。文章建议Meta考虑开放AI生态,允许用户选择其他AI服务商,这可能帮助Meta在AI硬件市场获得优势。
人民大学团队开发了Search-o1框架,让AI在推理时能像侦探一样边查资料边思考。系统通过检测不确定性词汇自动触发搜索,并用知识精炼模块从海量资料中提取关键信息无缝融入推理过程。在博士级科学问题测试中,该系统整体准确率达63.6%,在物理和生物领域甚至超越人类专家水平,为AI推理能力带来突破性提升。
英伟达同意以50亿美元收购英特尔股份,双方将合作开发多代数据中心和PC产品。英伟达将以每股23.28美元的价格收购约4%的英特尔股份,成为其最大股东之一。两家公司将通过NVLink接口整合各自架构,实现CPU和GPU间的高速数据传输。英特尔将为英伟达AI平台定制x86处理器,并开发集成RTX GPU的x86系统级芯片,用于消费级PC市场。
Anthropic研究团队开发的REINFORCE++算法通过采用全局优势标准化解决了AI训练中的"过度拟合"问题。该算法摒弃了传统PPO方法中昂贵的价值网络组件,用统一评价标准替代针对单个问题的局部基准,有效避免了"奖励破解"现象。实验显示,REINFORCE++在处理新问题时表现更稳定,特别是在长文本推理和工具集成场景中展现出优异的泛化能力,为开发更实用可靠的AI系统提供了新思路。