在IT运维领域,有两个被无数次提起的词,一个是“救火队员”,一个是与之对应的“主动运维”。两个词汇前后呼应,旨在说明IT部门为了摆脱前者匆忙、低效的形象,用尽洪荒之力,以求避免IT系统故障,增加业务系统的健康运行时间。
但是,作为国内领先的IT运维管理解决方案提供商,北塔软件在为很多客户提供运维服务时却发现,在“主动运维”的光环背后,很多人还只能将其当成一种愿望,真正实现起来却是困难重重。这是因为,在主动运维落地时存在的两大难题:经验、能力。
误把“阈yù”当“阀fá”,棘手问题紧跟其后
在IT管理中,有两个词经常被混淆在一起用,你甚至可以在一些IT大咖演讲时也能听到。这就是阈值和阀值。其实,“阀值”这个词最早是没有的,后来国家的咬文嚼字工作组通过统计全国人民使用词语的习惯(也就是别字用多了,大家都成了习惯),发现了阀值这个词。但规范来讲,“阈值”才是主动运维中的正宗血脉。那么,我们为何要紧紧抓住它呢?
在被动运维中,业务部门一般最先发现故障现象,然后层层汇报领导后,指令IT运维部门尽快查明原因,并制定故障解决方案,直至解决故障,系统恢复正常为止。而主动式IT运维服务则可以很好的采取预防的手段进行监控管理,由IT部门首先发现可能出现的故障,改变“被火烤”的局面。为此,IT部门需要针对每个系统建立阈值报警体系,通过“基准线”观察每个系统可用性、流畅度、安全性的指标,凡低于或超过阈值,说明系统无法达到最低要求,则对该系统进行报警提示。
阈值的定义很容易理解,但在运维工具中如何设定就是一道难题了,这需要“经验”。首先,除了“0%”或是“100%”,这之间的任何一个数值都会处于设定预警阈值的范畴,管理员很难选取最合理的基线范围。其次,如果说“60%~80%”属于最常见的平均预警数,但业务系统都会出现集中访问的高峰期或是空闲期,阈值空间就会极大,造成频繁误报的现象。对于许多新上线的系统,“管理员的经验”几乎无法发挥作用。
对此,北塔软件表示:阈值的设定要依据历史数据,但一些维护人员往往是依靠自己的运维经验和行业惯例来设定故障告警阀值,无法按照系统的运行变化特性及时地进行智能调整,也没有持续改进和优化的有效方法来改变现状。鉴于以上难题,北塔BTSO2.5在保留实时阈值告警的基础上,更着重于对历史数据进行深入挖掘,系统从用户业务环境中自主学习和生成风险阈值,这项特性可以帮助管理员解决阈值固化的问题,进而实现自动化的主动运维方式。
没有“技术大咖”就无法实现主动运维吗?
建立和实施信息系统的主动式运维管理平台,注定是一个循序渐进的过程,需要对运维规则进行反复的调整,这不可能一蹴而就。但是,每个企业的IT部门都有着自己的特色,有的技术人员能力很强、待遇很高,有的却无法留住这些高资人才,导致运维规则无法落地。
因此,如果说“自主学习”是主动运维的第一步,接下来就需要实现“智能运维”,这也是从“人治”到“法治”的门槛。
传统的主动运维思路以事件为核心,侧重对故障的定位,但不负责解决,这就无法摆脱“人治”的束缚。而BTSO提出的主动运维不仅以数据为核心,根据用户所属行业自动定义正常阈值,还能将运维规则自动导入,指引用户按照规则处理IT预警信息,直接让用户步入中等运维水平。
以高负载主机为例,当管理对象加入系统后,BTSO自动启动各类主机性能监控,当个别主机出现高负载的表象后,系统不仅可以过滤偶发的CPU冲高现象,还能横向扩展分析,结合历史数据自动判断,告之用户这个偶发现象是否有关联、是否影响了业务系统的整体健康。如果被确定为长期高负载主机,系统将提出优化处理步骤。
不仅是CPU,管理员最担心的内存泄露,BTSO也能从增长趋势的角度,智能分析出这些表像背后的根源,利用72小时或更长时期的分析报告,或是系统将根据用户需求自动做出24小时的“进程级”内存泄露定位,展现有可能溢出的进程名称和消耗,更主动的消除故障隐患。另外,网络拥堵、数据库指标异常波动等,这些很难在短时间处理、必须依靠技术高手处理的问题,BTSO都提供了智能处理的内置规则,在用户无需掌握深奥理论的情况下,首先解决实际问题。并且,这些正确处理的步骤会被一一记录,在企业内部形成运维知识体系的传承。
“开刀治病”不如“强身健体”
在IT运维领域中,“主动”并不是一个新鲜的概念,几乎所有的IT运维产品都在宣传它。然而,由于今天的IT组织面临着诸如日益增长的基础设施复杂性、技能方面的限制以及“人才短板”等相当多的问题,因此要实现这一点并不容易。
但是,“主动运维”刻不容缓。这就如人生病一样,很多疾病都会造成身体上多处特征的不良反应,但生活中多数人都不在意身体不适症状,因此导致很多疾病错过了最佳的治疗时机。当然,主动运维理念的发展方向也将迎来改变,智慧运维不仅需要“开刀治病”,更应解决运维经验、个人能力等问题,指引业务系统“强身健体”。
好文章,需要你的鼓励
zip2zip是一项创新技术,通过引入动态自适应词汇表,让大语言模型在推理时能够自动组合常用词组,显著提高处理效率。由EPFL等机构研究团队开发的这一方法,基于LZW压缩算法,允许模型即时创建和使用"超级tokens",将输入和输出序列长度减少20-60%,大幅提升推理速度。实验表明,现有模型只需10个GPU小时的微调即可适配此框架,在保持基本性能的同时显著降低计算成本和响应时间,特别适用于专业领域和多语言场景。
这项研究创新性地利用大语言模型(LLM)代替人类标注者,创建了PARADEHATE数据集,用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美,随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示,在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异,证明LLM生成的数据可作为人工标注的高效替代方案,为创建更安全、更具包容性的在线环境提供了新途径。
这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor,一种新型3D编辑框架,通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑,要么同时编辑多个固定视角,都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块:主视角采样器自动选择最适合编辑的视角,关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角,全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。
这项研究提出了ComposeAnything,一个无需重新训练的框架,可显著提升AI图像生成模型处理复杂空间关系的能力。该技术由INRIA、巴黎高师和CNRS的研究团队开发,通过三个创新步骤工作:首先利用大型语言模型创建包含深度信息的2.5D语义布局,然后生成粗略的场景合成图作为先验指导,最后通过物体先验强化和空间控制去噪引导扩散过程。在T2I-CompBench和NSR-1K基准测试中,该方法远超现有技术,特别是在处理复杂空间关系和多物体场景时表现卓越,为AI辅助创意设计开辟新可能。