前言
苦!苦!苦!
IT运维的苦,不是两三把头发就能数完的。
要数,怎么也得四把。
IT运维苦低效久矣。
运维江湖,一口大锅炉,吞掉了攻城狮们的头发、视力和休息。
机械重复+手工操作,费时费力?——正常!
24点以后通宵加班,眼红头顶秃?——大家都这样!
忙得脚不沾地,没时间洗澡?——要习惯!
设备成倍增长,人手原地踏步;公司强势扩张,运维人加班买单;准点下班就是放假,听到设备上新就会头皮发麻——IT运维苦低效久矣。
直到一对大侠横空出世,这种积弊才得到改进。
欲知大侠何许人也,请欣赏短剧《A君的救赎》。
01第一幕
服务器监控也可以很轻松
这天,A君着手服务器故障排查,他抱着笔记本在机房里巡视,穿过一排排机柜,靠肉眼寻找故障灯,然后连接键盘显示器定位服务器故障——这个过程相当耗时,而且很容易漏掉目标,由于服务器故障排查不到位结果酿成大损失的情况发生过不少次。
A君揉揉发红的双眼,仰天长啸:怎么才能提高服务器监控效率啊!
“嘭”地一声,大侠来了!
两位大侠出手相助之后,情况就此改观。
使用了iDRAC和OME,A君可以直接在OME的管理界面上看到被监管服务器的运行状况。iDRAC提供SupportAssist功能,能够以带外方式在iDRAC图形界面上直接收集被监控服务器的日志与配置信息,而不需要对服务器/操作系统端做任何设置,真正实现免代理监控。
此外,要了解某一台服务器的详细信息,A君只需点击某一台服务器的Name链接,便可进入该服务器详细管理界面:
还可以快速查询服务器大部分备件的详细信息:
这是一台更换过内存条的服务器,从图中可以看到该服务器配置的内存均为单一品牌,没有出现混插现象。
工作过程中,有感于电脑端监控平台的不便,A君又采用了戴尔易安信基于移动端的软件OMM(OpenManage® Mobile)。
监控服务器时,iDRAC将产生的告警信息推送到OME平台上,OME平台可以将告警信息继续推送到下一级平台(比如用户已有的统一监控平台),或者用户安装了OMM软件的手机、平板等移动平台上。
以前,如果有多台服务器发生故障,A君需要在机房和OME监控平台之间往返多次。
如今,用了戴尔易安信基于移动端的软件OMM(OpenManage® Mobile),A君可以携带移动端进入机房,而不必每次都从机房返回OME平台前查看结果。
利用OMM,A君可以直接在手机上监控服务器状态。如果公司策略允许,A君甚至能在家里或路上接收告警信息,真正做到早发现早处理,避免将小故障拖成大事故,由此大大提高了运维工作的SLA水平。
A君说自己的手机不能加入企业网,倒是可以试着申请个iPAD作为专有服务器监控工具给自己使用。
02第二幕
摒弃手工操作,(固件)升级自动化
前天晚上,公司接到了戴尔易安信TAM(Technical Account Manager)发来的信息,建议用户立即将某一批服务器的固件升级到某个版本之上。
这个任务落到了A君头上。
据统计,要升级的服务器足足有三四十台之多。升级固件是纯手工操作,A君面对巨大工作量只得发扬艰苦奋斗精神,通宵加班完成工作。
不过还没完。
手工升级比不得自动化,是否会有升级不成功或遗漏的情况?
A君对此表示:“没有记录,后半夜实在太累了,来不及统计了。先上线吧,等业务那边发现问题再说。”
“嘭”地一声,大侠来了。
通过戴尔易安信提供的OME软件,A君可以自行定义服务器固件基线,并通过简单操作,完成大批量服务器的固件升级工作。
OME配置项下的固件升级界面:
如图,用户可以定义固件基线,然后点击“查看报告”,对被筛选出来并选中的服务器进行固件升级:
A君抓抓稀疏的头发,揉揉眼睛说道:“好是好,不过这是不是也是得等到24:00以后才能操作?”
当然不用了!你可以预约呀!
OME提供“Schedule Update”选项,可以预约升级固件时间。
(固件)升级再也不用等到24点了,下班时在OME上简单点击几下,提交job后人就可以走了,OME会在24点自动执行升级工作。
第二天,A君通过OME/OMM软件检查服务器升级情况,看看是否有“漏网之鱼”。
当然,大部分服务器应该都能够正常完成升级工作,不过也不排除有少数升级失败的情况。对此不必费劲找或者等业务上线后发现,所有升级记录都会被OME保存下来,若存在失败情况,A君只需按图索骥,再进行一次升级即可。
这种利用软件工具实施多台服务器升级、部署的方式,能够避免手工部署中的人为差错,确保服务器部署的一致性,从而保证服务器上线前的质量。
03第三幕
人工部署一头乱麻?试试自动化吧
P.s 尽管戴尔易安信服务器出厂时已经按照企业的要求对BIOS做了设置,公司的IT领导还是要求运维人员对这些服务器的BIOS设置做出修改。
这批服务器数量不少,A君在机房干了整整一天,才按时完成了任务。
终于结束了,A君长吁一口气,在机房门口又是揉腰,又是“嘎嘣,嘎嘣”扭脖子,“嘭”地一声,大侠来了。
OME提供部署功能,用户可以通过OME完成诸如BIOS/iDRAC/NIC等服务器设置工作:
现在,同样修改服务器BIOS设置的工作,A君不必在机房“吭哧吭哧”埋头苦干一天,而是可以先设置好将一台服务器的BIOS,然后使用OME将该机抓取为模板,再将模板部署到所有等待部署的服务器上去,这样任务就完成了。
具体操作时,A君只需下班时在OME上简单点击几下,预约部署时间为24点,提交任务即可正点下班。第二天来查看部署情况,对少数“漏网之鱼”再次部署即可。
对此,A君给出评价:以前手工改服务器配置,机器一多就乱了。现在有了OME,真是能解决大问题。
04第四幕
自动化运维,还有很多东西可以学习
这天,A君打开了戴尔易安信的网站,一边看电脑一边在本子上记着东西。
同事问道:“你在干什么呢?”
A君:“学习呀,我了解到,戴尔易安信目前是提供服务器Restful API方面最积极的厂商。不论是服务器管理卡iDRAC还是OME软件,他们都有提供丰富的Restful API接口。”
同事:“你在学习Restful API?”
A君:“是啊,Restful API采用https协议,输出格式为JSON,无需转化即可很方便地被第三方软件集成。又很多用户采用戴尔易安信Restful API 与Zabbix软件集成,打造自己的现代化监控的平台,我也得学习学习。”
笔者:“有资源吗?”
A君:“要不说戴尔易安信很棒呢,戴尔易安信提供了丰富的Python脚本供用户调用,来打造自己的现代化监控平台,而且也在网站上放了Restful API知识呢,这就是链接。”
1.Python脚本,用户可移步以下链接下载:
https://github.com/dell/OpenManage-Enterprisehttps://github.com/dell/iDRAC-Redfish-Scripting
2.更多戴尔易安信Restful API知识,可至以下链接了解更多:
https://www.dell.com/support/article/us/en/19/sln310624/redfish?lang=en
戴尔易安信RestfulAPI知识库截图
同事:“哇,这个不错。”
A君:“是啊,服务器数量与日俱增,传统的IT运维人员和IT运维方式压力山大,咱们这些IT运维工程师要尽快掌握更多IT管理工具,提高自己的技能和IT运维水平,才能更好地适应企业发展,才能不被时代淘汰,而且我们慢慢掌握运维工具,将它们熟练运用到大规模服务器管理的过程中的同时,也提高了自身的价值。”
同事:“加油,一起努力吧!”
往期回顾
业界首个?这仅仅是我们冰山一角
流数据处理难?一切都在计划之中
不用扩建机房也能上线新设备的方法
好文章,需要你的鼓励
AMD Radeon(TM) RX 9000 系列依托AI 加速为玩家带来极致游戏体验。
Inception Labs 于周四发布了 Mercury Coder,这是一种新的 AI 语言模型,利用扩散技术比传统模型更快地生成文本。与逐字生成文本的传统模型(如 ChatGPT)不同,基于扩散的模型(如 Mercury)能够同时生成完整的响应,并将其从最初的遮蔽状态逐步精炼为连贯的文本。
微软终于将其 AI 助手 Copilot 作为独立应用程序推出 macOS 版本。这款免费应用现已在 Mac App Store 上线,支持多种功能如文本翻译、问题解答、文档生成等。Copilot 采用 OpenAI 的 GPT-4 和 DALL-E 3 等模型,标志着微软在 AI 领域的重要布局。该应用要求 M1 或更新的 Mac 设备,以及 macOS 14 或更高版本。