在新冠疫情带来的非接触远程工作需求以及各行业数字化转型的趋势下,云计算将进一步蓬勃发展。
随着越来越多的用户上云,系统的管理正面临着前所未有的挑战。海量用户、大规模集群、复杂的系统架构使传统的运维方式力不从心。如何实时检测异常、快速响应故障、预测故障、合理规划容量等问题已成为重要课题。
微软亚洲研究院常务副院长、微软杰出首席科学家张冬梅告诉记者,云计算已成为整个社会的重要基础设施,用户对于云计算平台的性能、安全性等各方面的要求也更高。“云计算平台是一个大规模的复杂分布式系统,而要保证这样的系统稳定、高效、安全,在设计、开发、运维各个方面需要一种范式改变,那就是从传统云变成主动云。”
云计算的这种范式转变体现为从基于规则的系统变为数据驱动的系统、从静态到自适应、从局部观到全局观、从被动性到预防性。
而在这种范式切换中,智能运维(AIOps)则是不可或缺的一环,对整个云平台的运行起着非常关键的作用。智能运维,即利用机器学习和人工智能技术,高效地设计、构建并运营大规模的复杂云服务。
微软亚洲研究院常务副院长、微软杰出首席科学家张冬梅
众所周知,在运维发展的过程中,最早出现的是手工运维,但手工方式通常费时耗力,一直是运维人员的梦魇。后来,大量的自动化脚本实现了运维的自动化,大大提高了运维效率。不过随着系统规模的日益增长,自动化的运维也变得差强人意。
数据和AI时代的到来让运维方式迈向智能化的历史阶段。运维智能化开始被越来越多的企业所重视,通过搭建集中监控平台,收集并记录系统的各项运行状态和执行逻辑信息,如网络流量,服务日志等,实现对系统的全面感知。而随着系统规模的增长,运维数据也在爆炸式增长,每天有上百亿条日志产生,给运维带来了更大的挑战。
微软亚洲研究院在AIOps的研究方面起步非常早,早在2009年微软亚洲研究院成立了一个Software Analytics Group(软件分析组)。当云计算系统变成了我们运行软件非常主要的形式,Software Analytics自然地就会把它研究的焦点集中到云计算系统,所以微软亚洲研究院提出了云智能/AIOps。
张冬梅说,微软亚洲研究院主要是从三个方面研究AIOps,那就是服务/系统(AI for System)、客户(AI for Customer)、生产效率(AI for DevOps),利用大规模数据挖掘、机器学习和人工智能技术对纷繁复杂的运维大数据进行实时分析,从而可以为系统维护提供有效的决策方案。
如今,微软亚洲研究院的研究成果已经应用到了微软Skype、OneDrive、Office 365、Azure等诸多在线服务中。
其实,微软云一直在努力实现数据驱动、AI赋能,特别是微软亚洲研究院数据、知识、智能组与微软云产品团队的深度合作,一系列创新技术已经在云系统的故障预测、异常检测、智能诊断、容量规划、事故管理等诸多实际应用场景中落地,相关研究成果也在 ICSE、OSDI、USENIX ATC、WWW、AAAI、KDD 等高影响力会议中发表, 极大地提升了服务质量、用户体验和工业生产力。
微软云计算与人工智能事业部首席数据科学家党映农表示,早在五六年前,微软云计算部门的工程团队就深切意识到了实施智能运维的巨大必要性和迫切性,开始建立专门的数据科学家团队,并且和微软亚洲研究院开始深度战略合作,进行智能运维方面的研发以及部署工作。
今天微软云已经在智能运维方面积累了不少重要的技术创新,包括云服务系统的智能化和管理的自动化,云开发和部署的智能化,以及智能化客户响应等等。具体来讲,人工智能和机器学习技术已经深度集成到微软云基础设施的管理软件站,包括智能监控、智能预测、智能修复等等。
自动化和智能化的一起推进,一方面使得云服务的可用性、可靠性以及效率得到提升,另一方面使得云服务运行的自主性得到提高,需要进行人工维护的场景不断减少,维护代价不断降低。机器学习技术也极大改善并增强了微软云的开发和运行维护解决方案的功能,比如像智能测试、智能诊断、智能部署等等,大大提高了开发和运营工程师的效率。
微软云计算与人工智能事业部首席数据科学家 党映农
“我们对不同的场景进行了探索,只有对共性的问题进行抽象以后,我们才能从研究的角度解决这些共性问题,找到可推广的算法或者解决方案。”张冬梅说,“AIOps主要面临四个挑战:检测、诊断、预测、优化。”
以异常检测为例,微软亚洲研究院首席研究员林庆维介绍说,为了保证云平台的高可靠性和高可用性,实时检测可能的系统异常尤为重要。大规模系统的异常检测主要通过监控平台的各种运行状态数据来实现,如性能指标数据(访问成功率、响应速度、CPU 使用率、内存占用率),系统事件,系统日志等,从数据窥探系统的健康状况。
微软亚洲研究院基于时序数据和日志数据进行了异常检测的研究,提出了一种基于迁移学习和主动学习的跨数据集的时间序列异常检测框架ATAD,和一种基于深度学习技术的 log 异常检测模型。通过实验证明,ATAD可以有效地在不同时间序列数据集之间进行迁移,并且只需要1%-5%的标注样本量即可达到很高的检测精度。LogRobust 可以比传统方法更好地适应工业中的实际场景,在快速漂变的实际工业数据中取得了出众的效果。
微软亚洲研究院首席研究员林庆维
结语
大数据和人工智能的发展为云系统的运维方式改革带来了“东风”,使得运维在由人工进化到自动之后,又迎来新的跨越。除了互联网,在金融、物联网、医疗、通信等领域,智能运维也将表现出强烈的需求。
AIOps目前处于一个快速发展的阶段,能够给用户提供一定的建议和推荐。林庆维表示,我们希望未来AIOps能够更加自主化,能够自动帮助用户做出最优决策,不需要人工的干预;二是希望它更加主动化,防患于未然,不能等到问题出现了才解决问题;三是更加通用化,跨平台的AIOps应用不仅服务于云平台,而是服务于所有平台。
“未来,微软亚洲研究院数据、知识、智能组将继续保持对问题的好奇、对数据的敏感和对技术创新的热忱,与大家分享在该领域中的全新突破。”张冬梅最后说。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。