2018年9月13日,IBM“智创新金融,开启运维新纪元”圆桌论坛在上海举行,并发布首部金融行业智能运维AIOps白皮书,旨在集合最高端的产、学、研能力,为广大金融机构和企业支招,以人机超融合,推动智能运维的落地。此白皮书引入了人工智能技术和运维专家的深度合作,由清华大学智能运维Netman实验室、一线银行数据中心专家,融合IBM 30多年运维经验编撰而成,详细介绍了金融企业智能运维可落地的场景定义、成熟度模型、参考架构、落地解决方案等,并对客户及经典案例进行了分享与客观剖析。
白皮书编写总顾问,清华大学长聘副教授裴丹博士表示:“金融领域对IT系统服务的要求极为苛刻,要求7×24持续不间断、接近于“零”宕机的要求。同时金融业务的持续创新带来其支撑软件的不断变化和迭代,金融IT环境日趋复杂。因此,金融行业数据中心的运维也必须引入新技术、新思路、新体系,以更好、更智能地为金融行业保驾护航。“
IBM大中华区全球信息科技服务部, 技术支持服务部副总裁安婷表示:“智能运维已经不是金融行业的可选项,而成为发展的必选项。此白皮书研究了7×24人机超融合的运维新方式,是产、学、研强强联手的结晶,我们希望它能成为金融行业AIOps领域经典的参考资料,帮助广大金融企业运用人工智能技术对业务状况进行“故障预警”、“故障自愈”,实现‘企业永续’。”
一直以来,金融行业是IT建设和运维水平最发达的行业之一,但随着数据越来越多、业务越来越复杂,金融行业面临更加严苛的挑战。依托IBM三十多年的运维实战经验、学术界最新研究成果,以及银行客户的实施案例,《金融行业AIOps智能运维白皮书》对金融机构和企业建设智能运维系统提出三大主张:
AIOps的实施可分为十个阶段,金融业用户在考虑智能运维建设方向时,应根据自身情况,分阶段实施,循序渐进。IBM认为,目前金融行业客户基本都已经建立了较完善的运维监控系统,收集了比较全面的运维指标数据(阶段一),而且在云/大数据的技术浪潮下,各企业内部的大数据平台也都趋于建设完善(阶段二)。从阶段三至阶段十则是大部分金融用户需要考虑的下一步实施路径图,通过从最底层基本数据/平台开始考虑,逐步构建金融级智能化运维平台及金融类业务场景,实现数据中心全覆盖,最终建立企业自有人工智能算法模型,将运维系统建设成为企业数据中心运维大脑,即实现智能洞察、智能定位、智能分析。
与传统运维凭借经验给系统调参、优化不同,基于AI的智能运维平台,通过自主学习,分析和总结系统运维过程中的各种状况和规律,并针对不同应用场景建立模型;随后,让该平台去了解其IT系统运行规律,例如,一家全国性银行的IT环境里,可能会有几万、甚至几十万个趋势或规律。最后,AI平台根据总结出来的规律去监控企业的IT环境,当机器掌握所有趋势或规律之后,不仅可以快速找出问题出现的原因,还可以提前预测,对可能出现的问题进行防备。
某全国性大型银行在2016年率先启动IBM智能运维平台项目,每日处理数据增量达TB级,覆盖个人网银、手机银行等重要业务系统,初步建立了数据中心的“运维大脑”。通过机器学习了解历史数据的运行规律,“运维大脑”实现对针对性能指标的异常波动做到提前预警,主动运维;自动地挖掘数据背后的现象,快速定位系统的瓶颈;还能为银行的各种应用提供安全防护。如某一时段发现手机银行发生交易缓慢,而影响手机银行交易缓慢的主要原因是磁盘IO响应时间,通过智能运维平台的切片分析发现该指标的瞬间峰值是平时正常均值的20-30倍,于是可以很快定位到故障的根源,从而为故障恢复争取了时间。
未来的IT运维需要既懂业务场景语言,又懂平台和技术,能够把业务场景翻译成新型的AI语言,然后把咨询与交付一体化完成。 这些过程都需要专家团队的参与和配合。在过去30年,IBM专家团队在帮助金融客户爆发式成长过程中,积累大量运维实战经验,能够复杂的运维经验转化为抽象的AI语言,即把运维知识沉淀总结为AI平台可以接受的标签数据,再通过AI平台正向反馈和转化专家知识在运维工作的价值,实现人机超融合的运维新方式。
IBM大中华区全球信息科技服务部,技术服务产品管理部总经理孙建钢表示:“尽管AIOps会带来颠覆性的运维思维和效应,但并非取代现有系统,而是赋予现有系统智能。IBM作为权威的IT运维专家,与中国金融行业相伴成长超过30年,对传统金融行业的复杂且异构基础架构有着深刻的理解,并长期服务于金融行业运维一线。我们认为AIOps最终的体现形式是人机超融合,进而实现企业永续。IBM愿与中国企业同创,迎接IT智能化运维新时代。“
好文章,需要你的鼓励
Red Hat OpenShift、OpenShift AI、Edge Device和Developer Hub的更新将会为合作伙伴提供更多与客户开展业务的方式。
谷歌云(Google Cloud)今天宣布升级旗下 Kubernetes 引擎的容量,以应对更大规模的模型,Kubernetes 引擎的容量将从目前支持 15000 个节点集群升级到支持 65000 个节点集群。
随着AI的使用、创新和监管混乱超过认可的标准,IT领导者只能开发内部方法来减轻AI风险,依靠框架、工具和他们的同事来正确使用AI。
几年前,当澳大利亚红十字会(Australian Red Cross)这个社区服务慈善机构开始进行数字化转型的时候,发现有很多不同的系统无法协同工作。如今,经过数据梳理和发挥作用,可以满足不断变化的需求。