至顶网服务器频道 08月14日 北京报道(文/李超):说起服务器管理,很多业内人士并不感到陌生,以往我们对服务器的管理都是通过相应的服务器操作系统,或结合第三方管理软件来实现的,但我们今天要说的这套管理系统,则是基于一种全生命周期理念建立起的一套管理体系。
在这套管理体系下,用户能对服务器从最初的设备配置规划、网络IP规划、位置规划,再到配置交付、运行监控、故障排除,以及最终停止服务后的相关工作进行一个整体的全方位管理。
而这套管理体系的最终产物就是华为的eSight,华为把对服务器的管系划分为了四个阶段:规划阶段、交付阶段、监控阶段、退服阶段,针对这四个阶段分别有相应的管理内容及方式。
此外,eSight还兼顾了管理生态,换句话说就是服务器要能够和业界主流的管理软件相互兼容,这对一些已经建立起运维体系的用户来说显得尤为重要,因为这些用户不会轻易替换原有运维系统,所以华为服务器的管理必须遵循开放和标准化。
快速批量部署OS及配置下发
据悉,华为eSight服务器管理软件可以实现带外OS部署,并有效解决传统部署方式的弊端,缩短50%业务上线的时间。这些特性看上去非常诱人,那么,华为又是怎么做到这些的呢?
当用户在购入服务器之后,首先就要给服务器安装操作系统。目前业内分为手工工具安装和PXE网络部署两种安装方式,而这两种方式各具优点和其局限性。因此,华为创新性的通过eSight集成了两种传统方式的优点,通过虚拟媒体通道,实现了带外操作系统无人值守安装。支持20线程批量安装,对网络没有任何限制。24小时可以部署近千台服务器。此外,该管理软件还支持主流的操作系统,如BMC,BIOS,同时网络等配置模板也能够随部署任务同时下发。
全方位监控深入挖掘故障根源
在对服务器的日常监控方面,业界通常认为,首先是对部件的监控范围要做到没有盲点,其次是对所监控部件故障的深入度,要能够保障深层故障也能够被诊断出来。
而故障诊断一直是华为服务器管理中的一项优势技术,为了实现这一优势,华为和英特尔经过三年的深入合作,研发出一套带外诊断系统FDM(Fault Diagnosis Modular)。这套系统的优势就在于,当CPU发生深度故障时,OS根本无法通过CPU记录任何故障信息时。就会通过带外获取CPU寄存器的故障码进行诊断和分析。
据悉,在2016年底,某友商服务器先后出现了100多台宕机事件,故障定位竟花费了半年之久,最终也没有找到明确结论。而华为在当时也出现了大概10起左右的宕机事件,幸运的是华为当时通过FDM获取到了CPU的故障信息,在联合Intel定位后,很快就给出了CPU 个例cache失效的明确故障报告。
FDM自2013年开始研发,已经陆续推出了三个版本,目前提供3.0版本,可以实现基本部件的健康状态监控,CPU深度故障诊断,精准定位故障部件的功能。另外,这套系统还将继续扩大诊断的范围和深度,实现更多部件预故障的诊断能力,当前即可支持内存和硬盘的预故障诊断。
自动化固件管理,让运维更简单
固件升级一般是用户非常关心的一个后续管理问题,目前服务器的固件和驱动版本管理主要存在几个问题。第一,部件种类繁多,常见的有BMC、BIOS、CPLD、FPGA,而在PCIe卡上的固件类型则更复杂,如RAID卡、CNA卡、FC卡及网卡等,加之不同厂家芯片的固件版本类型都不尽相同。第二,兼容性关系非常复杂。各厂家芯片的PCIe卡固件和驱动是有配套关系的。想通过人工的方式整理清楚这种配套关系不是一件容易的事情。更糟的是,随着时间的推移,这些老版本的固件和驱动会出现更多问题,很大概率会影响到客户的正常业务运行。如何快速有效的获取到最新的固件和驱动的配套关系,是用户非常关心的问题。
基于以上问题,华为eSight 服务器管理软件能够帮助客户通过快速、无人工干预的方式对固件进行版本升级。简单来讲,eSight会从两个方面来解决这些问题。一是基线管理,首先eSight可以连接到华为support的网站,自动获取最新的固件和驱动版本来更新基线。其次eSIght会根据现有的基线,自动检测现网中哪些设备不符合基线要求,并给出告警。另外,eSIght还能够基于策略进行任务升级,工程师只要通过定义一个任务,选择目标服务器,选择升级时间,以及生效方式,接下来工程师就可以去喝茶休息了,剩下的事情可以全部交给eSight自动化去处理啦!
无状态计算让业务快速恢复
华为eSight 服务器管理组件提供的无状态计算特性,能够实现备件配置自动恢复,可以将原故障件的所有配置信息,完全复制到新的备件上;同时支持刀片、机架、高密服务器的failover,当检测到同组设备中有不可修复的故障时,无状态计算可以实现自动倒换,并隔离故障设备。
而当设备老旧维修或下电时,eSight还可以将此设备的Profile信息,手工快速迁移到其他指定的设备中,实现Profile配置信息的快速迁移,减少人工修改配置的烦恼。
另外,eSight还可以为设备设置自动迁移条件,比如硬盘故障、严重告警等情况下,Profile会自动迁移到域内与之机型最匹配的新设备中并立即生效,新设备即刻接管业务,故障设备会同时进行下电,实现无缝接管业务,使业务无感知平滑迁移。
事后,工程师及运维人员还可以通过迁移记录日志中的记录,查看Profile迁移的过程及状态等信息,了解迁移进展与结果,确保服务器运维及企业业务高枕无忧。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。