至顶网服务器频道 08月14日 北京报道(文/李超):说起服务器管理,很多业内人士并不感到陌生,以往我们对服务器的管理都是通过相应的服务器操作系统,或结合第三方管理软件来实现的,但我们今天要说的这套管理系统,则是基于一种全生命周期理念建立起的一套管理体系。
在这套管理体系下,用户能对服务器从最初的设备配置规划、网络IP规划、位置规划,再到配置交付、运行监控、故障排除,以及最终停止服务后的相关工作进行一个整体的全方位管理。
而这套管理体系的最终产物就是华为的eSight,华为把对服务器的管系划分为了四个阶段:规划阶段、交付阶段、监控阶段、退服阶段,针对这四个阶段分别有相应的管理内容及方式。
此外,eSight还兼顾了管理生态,换句话说就是服务器要能够和业界主流的管理软件相互兼容,这对一些已经建立起运维体系的用户来说显得尤为重要,因为这些用户不会轻易替换原有运维系统,所以华为服务器的管理必须遵循开放和标准化。
快速批量部署OS及配置下发
据悉,华为eSight服务器管理软件可以实现带外OS部署,并有效解决传统部署方式的弊端,缩短50%业务上线的时间。这些特性看上去非常诱人,那么,华为又是怎么做到这些的呢?
当用户在购入服务器之后,首先就要给服务器安装操作系统。目前业内分为手工工具安装和PXE网络部署两种安装方式,而这两种方式各具优点和其局限性。因此,华为创新性的通过eSight集成了两种传统方式的优点,通过虚拟媒体通道,实现了带外操作系统无人值守安装。支持20线程批量安装,对网络没有任何限制。24小时可以部署近千台服务器。此外,该管理软件还支持主流的操作系统,如BMC,BIOS,同时网络等配置模板也能够随部署任务同时下发。
全方位监控深入挖掘故障根源
在对服务器的日常监控方面,业界通常认为,首先是对部件的监控范围要做到没有盲点,其次是对所监控部件故障的深入度,要能够保障深层故障也能够被诊断出来。
而故障诊断一直是华为服务器管理中的一项优势技术,为了实现这一优势,华为和英特尔经过三年的深入合作,研发出一套带外诊断系统FDM(Fault Diagnosis Modular)。这套系统的优势就在于,当CPU发生深度故障时,OS根本无法通过CPU记录任何故障信息时。就会通过带外获取CPU寄存器的故障码进行诊断和分析。
据悉,在2016年底,某友商服务器先后出现了100多台宕机事件,故障定位竟花费了半年之久,最终也没有找到明确结论。而华为在当时也出现了大概10起左右的宕机事件,幸运的是华为当时通过FDM获取到了CPU的故障信息,在联合Intel定位后,很快就给出了CPU 个例cache失效的明确故障报告。
FDM自2013年开始研发,已经陆续推出了三个版本,目前提供3.0版本,可以实现基本部件的健康状态监控,CPU深度故障诊断,精准定位故障部件的功能。另外,这套系统还将继续扩大诊断的范围和深度,实现更多部件预故障的诊断能力,当前即可支持内存和硬盘的预故障诊断。
自动化固件管理,让运维更简单
固件升级一般是用户非常关心的一个后续管理问题,目前服务器的固件和驱动版本管理主要存在几个问题。第一,部件种类繁多,常见的有BMC、BIOS、CPLD、FPGA,而在PCIe卡上的固件类型则更复杂,如RAID卡、CNA卡、FC卡及网卡等,加之不同厂家芯片的固件版本类型都不尽相同。第二,兼容性关系非常复杂。各厂家芯片的PCIe卡固件和驱动是有配套关系的。想通过人工的方式整理清楚这种配套关系不是一件容易的事情。更糟的是,随着时间的推移,这些老版本的固件和驱动会出现更多问题,很大概率会影响到客户的正常业务运行。如何快速有效的获取到最新的固件和驱动的配套关系,是用户非常关心的问题。
基于以上问题,华为eSight 服务器管理软件能够帮助客户通过快速、无人工干预的方式对固件进行版本升级。简单来讲,eSight会从两个方面来解决这些问题。一是基线管理,首先eSight可以连接到华为support的网站,自动获取最新的固件和驱动版本来更新基线。其次eSIght会根据现有的基线,自动检测现网中哪些设备不符合基线要求,并给出告警。另外,eSIght还能够基于策略进行任务升级,工程师只要通过定义一个任务,选择目标服务器,选择升级时间,以及生效方式,接下来工程师就可以去喝茶休息了,剩下的事情可以全部交给eSight自动化去处理啦!
无状态计算让业务快速恢复
华为eSight 服务器管理组件提供的无状态计算特性,能够实现备件配置自动恢复,可以将原故障件的所有配置信息,完全复制到新的备件上;同时支持刀片、机架、高密服务器的failover,当检测到同组设备中有不可修复的故障时,无状态计算可以实现自动倒换,并隔离故障设备。
而当设备老旧维修或下电时,eSight还可以将此设备的Profile信息,手工快速迁移到其他指定的设备中,实现Profile配置信息的快速迁移,减少人工修改配置的烦恼。
另外,eSight还可以为设备设置自动迁移条件,比如硬盘故障、严重告警等情况下,Profile会自动迁移到域内与之机型最匹配的新设备中并立即生效,新设备即刻接管业务,故障设备会同时进行下电,实现无缝接管业务,使业务无感知平滑迁移。
事后,工程师及运维人员还可以通过迁移记录日志中的记录,查看Profile迁移的过程及状态等信息,了解迁移进展与结果,确保服务器运维及企业业务高枕无忧。
好文章,需要你的鼓励
萨提亚回忆起90年代在微软评审会上听到的场景。Gates当时说:"软件只有一个品类--信息管理。
南洋理工大学团队开发了Uni-MMMU基准测试,专门评估AI模型的理解与生成协同能力。该基准包含八个精心设计的任务,要求AI像人类一样"边看边想边画"来解决复杂问题。研究发现当前AI模型在这种协同任务上表现不平衡,生成能力是主要瓶颈,但协同工作确实能提升问题解决效果,为开发更智能的AI助手指明了方向。
Anthropic周一发布了旗舰模型Opus 4.5,这是4.5系列的最后一个模型。新版本在编程、工具使用和问题解决等基准测试中表现出色,是首个在SWE-Bench验证测试中得分超过80%的模型。同时推出Claude for Chrome和Claude for Excel产品,分别面向不同用户群体。Opus 4.5还改进了长文本处理的内存管理,支持付费用户的"无限聊天"功能,并针对智能体应用场景进行了优化,将与OpenAI的GPT 5.1和谷歌的Gemini 3展开竞争。
360 AI Research团队发布的FG-CLIP 2是一个突破性的双语精细视觉语言对齐模型,能够同时处理中英文并进行精细的图像理解。该模型通过两阶段训练策略和多目标联合优化,在29个数据集的8类任务中均达到最先进性能,特别创新了文本内模态对比损失机制。团队还构建了首个中文多模态评测基准,填补了该领域空白,为智能商务、安防监控、医疗影像等应用开辟新可能。