Sascha Giese,SolarWinds首席极客

根据中国信息通信研究院(CAICT)的数据显示,中国的数据中心产业在2010至2020这十年间高速发展。并且中国的互联网数据中心(IDC)市场连续三年保持30%以上的年复合增长率,于2020年达到1494.2亿元人民币。面对数据中心市场的繁荣发展,中国政府于2020年4月将数据中心正式纳入“新基建”这一国家战略的建设范围,由此凸显出该市场日益增长的重要性。
尽管一座数据中心通常有30-200名员工(具体取决于数据中心的规模和项目预期用途),但这些员工中只有一小部分负责IT方面的工作。除了更换设备,也就是众所周知的“代客运维”之外,只要不发生停电,这些员工就没有太多事可做。如此一来有了这样的传言:数据中心光线昏暗、室温凉爽并且会发出具有“催眠效果”的嗡嗡声,是一个睡觉的绝佳地方。
实际上,与电费和网络通讯费等其他运行成本相比,数据中心的人力资源成本大多可以忽略不计。
数据中心正因为依靠较少的人员运作,所以已经达到了先进的自动化水平。许多传统业务仍在探索需要在哪些方面实现自动化,但这个问题对于数据中心而言却十分简单,这是因为数据中心有明确的关键绩效指标,比如缩短周期、部署频率/速度和各项流程的平均处理时间等。
人工智能帮助进一步降低成本
我们到底该如何降低数据中心的成本,以及该降低哪些成本呢?简而言之,即“削减开支和优化支出”。让我们来看看下面几种情况。
目前,一些常见的问题已经有了解决方案:数据中心中的人工智能(AI)会在数据中心发生故障时帮助加快根本原因分析,还能够通过预测分析来防止硬件故障,或者更准确地说,能够指出何时更换设备才能防止故障率达到阈值。
另外,AI能够大幅提高基础设施的利用率,机器可以在更短的时间内查看更多的数值,因此在优化利用率方面远超人类,在容量规划等方面亦是如此。
尽管如此,数据中心的服务管理人员还是会“喜忧参半”。有些任务,比如初始置备和持续编排等,已经实现了高度自动化,可以毫无顾虑地完全交给AI。但有些任务可能一开始听起来很简单,实际上却十分复杂,比如配置和补丁管理。由于存在许多变量,数据中心需要逐一决定何时打补丁、打什么补丁等,而这对于机器来说绝非易事。
在中期,AI可以在测试环境中运行补丁并自行模拟真实用户的行为,以此评估补丁是否会对产品使用产生负面影响,但我们目前还没有达到这个阶段。
介于上述两者之间的是一些特殊用例,比如已经在应用机器学习的健康和性能监测等。我们可以把这称之为可观察性,下一步就是使用合适的AI。
因此,智能运维(AIOps)成为了这个领域当下的热门词。Gartner就曾预测,2025年全球AIOps市场预计将达到31.2744亿美元,2020年至2025年的年复合增长率为43.7%。
鉴于数据中心市场本身的规模,要想找到合适的解决方案具有一定的难度。许多企业机构仍在寻求“最好的解决方案”,而不是退一步思考自己到底想要实现什么。问题在于每个AI解决方案的评估成本都十分高昂,如果仅仅为了得到一个自定义版本而从头开始开发,与此相比更好的办法是采用具备某种集群智能的AI系统,即便是已有现成的框架也不例外。同时请注意,处在AI解决方案的评估阶段,也完全应该进行适当的监控。
有光的地方,也有影子
正如同面对每项新技术或新用例时那样,人们对AI既有合理的担忧,也有不必要的抵制。对于自动化,人们主要担心缺少开发和测试自动化脚本的时间,尤其是在没有足够的专业人士意见的情况下。
另一个问题是信任,这与部署AI时如出一辙。大多数人可能都曾认为只有靠自己才能做好某项工作。在将任务交给机器去完成时,同样会出现这种心理,而AI的出现让人们突然对失去控制产生了更多的恐惧。
集成问题
集成一项解决方案并将其与现有的解决方案相联系,是一项十分复杂且具有挑战性的工作。在这方面,开发人员能够提供很大的帮助,甚至是在部署阶段之后。数据中心可以尝试使用低代码或无代码,这两项最新技术使不具备开发知识的管理员,也能够通过创建简单的应用来提供更加定制化的服务,无需学习深厚的代码知识。
同时,一些构建模块只需通过一个用户接口流程图就能为基础设施和服务管理“牵线搭桥”。这将为实现进一步自动化开路,预计不久之后就会出现“低代码AI接口”(这是一个笔者编出来的热门词)。
由此可见,数据中心管理目前所面临的挑战,是评估低代码平台的整体成本,以及网络或基础设施管理员无法正常工作的时间,并将其与临时雇用开发人员的成本进行比较。
好文章,需要你的鼓励
阿里纳德数据中心与Calibrant Energy合作开发首创电池储能系统,通过绕过传统电网升级时间线,使俄勒冈州希尔斯伯勒在建数据中心园区提前数年上线。该31兆瓦、62兆瓦时储能系统计划2026年投运,将作为响应电网的动态资产,在需求高峰期放电,增强区域电网可靠性。这标志着美国首次使用专用电池系统加速大型数据中心并网。
威斯康星大学研究团队开发了LUMINA系统,专门检测AI在回答问题时的"撒谎"行为。该系统发现AI有时会忽视提供的参考资料,固执地依赖内部知识生成不准确回答。LUMINA通过监测AI对外部文档和内部知识的依赖程度来识别这种行为,在多个测试中达到90%以上的准确率,比以往方法提升13%,为构建更可信的AI系统提供了重要工具。
微软在Edge浏览器中推出增强版Copilot模式,提供更强大的AI代理功能,目前在美国进行限量预览。该模式包含Actions和Journeys两大功能:Actions让浏览器能代表用户执行任务,如语音控制打开网页或查找文章特定内容;Journeys则记住用户浏览历史,帮助用户继续之前的研究任务。此举正值AI浏览器竞争加剧,OpenAI推出ChatGPT Atlas、Perplexity发布Comet、谷歌集成Gemini到Chrome。目前Chrome占据71%市场份额,Edge仅占4.67%。
这项由法国CentraleSupélec大学领导的研究通过严格控制的实验,系统比较了AI的推理训练与传统训练方式。研究发现推理训练在数学、开放式任务中效果显著,但需要70亿参数以上模型才能充分发挥优势,且成本增加明显。研究为AI开发者提供了明确的应用指导,有助于根据具体场景选择最优训练策略。