Gartner高级研究总监季新苏、Gartner高级研究总监吴涛、Gartner高级研究总监Henrique Cecci
新型冠状病毒(COVID-19)引发的疫情已蔓延至全球并已成为全球性流行病(pandemic)。随着全球各国公共卫生部门通过整顿资源限制人力成本,许多企业开始评估疫情对业务运营的影响。
疫情常常会导致大量员工不得不远程工作,尤其是当疫情上升到流行病或全球性流行病时,而且疫区的出行限制还将引发运营人员短缺。这些因素都会增加对远程支持的需求,但此时可提供这一支持的员工人数却日益减少。那么基础设施和运营负责人到底该如何应对流行病或大流行病对运营的冲击?
由于新冠病毒疫情的爆发,多个国家/地区的政府开始限制出行,这使得员工无法上班。同时,需求的激增造成电信通讯中断,从而影响员工之间的远程通信交流。
此类情况在流行病和全球性流行病期间十分普遍,并且仅建立企业私有云仍不足以确保业务连续性。为在这种情况下减少业务中断,基础设施和运营负责人应使员工能够使用云桌面DaaS(包括公有云厂商提供的Desktop as a Service服务或者电信运营商提供的云桌面)进行远程工作。DaaS的快速可扩展性和按需付费模式可在短时间内为工作队伍建立起弹性应对能力,而且在大规模部署,且短期使用的时候,整体成本比扩展VPN方案更低。不过为所有员工提供远程工作安排的费用很高,因此需要合理安排人员的访问权限,确保成本可控。
在此之前应确定安全的远程访问用例支持模式,如有些客户使用前置堡垒机方式或账号绑定方式等。为了控制层成本,可以先期为需要DaaS的员工提前安排配置信息,只是在他们需要进行远程工作期间激活相关服务。
如果在您的办公室中发现感染者,那么您的工作地点大概率会被隔离,禁止人员随意出入。基础设施和运营负责人应通过建立数据中心响应计划做好这方面的准备。该计划应包括 创建数据中心现场工作人员核准名单,确认已将访问权限授予相应的人员,并确保名单中以外人员不能访问关键基础设施。另外需要在运营支持层面一个A角应该安排多个B角。至少应安排三名员工为关键任务IT服务的每一个支持层面提供服务,并准备最坏的可能性。有很多用户反馈,在系统真正出状况时,实际情况可能会与当时计划的场景差别很大。
由于人们的出行受到限制并且在流行病或全球性流行病期间不敢前往公共场所,因此原先线下业务交易不得不在网络上完成。基础设施和运营负责人必须增加企业机构的网络流量处理能力,尤其是有些业务因为人们应对突发疫情导致,需求快速增加,如医疗,快递等。在全球性流行病期间,此类企业必须在相对较短的时间内提高自己的处理能力,而相应的基础设施和运营负责人必须 规划通过利用公有云服务的弹性扩展本地工作负载容量。基于实时工作负载和性能监控构建功能,并使用云原生架构自动扩展或重新构建工作负载,确保运营的连续性。本地数据中心容量通常不足以支持此类突发需求。为了满足在关键时刻业务的重要需求,需要建立需求优先级管理委员会以及授权委派机构,使IT部门能够确保开发与支持疫情服务场景相关的应用来帮助满足受影响地区的需求并支持业务的稳定运行。
在全球性流行病得到控制且风险水平降低之后,上述保护措施还使传统行业的IT运营水平能够达到互联网企业机构的IT运营水平。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。