人们很容易认为,在数据中心及其他领域,自动化是没有界限的。在人工智能似乎为改善数据中心运营和网络提供无限机会的世界中,整个IT行业已经接受了工作流程可以变得完全自动化以至于我们达到NoOps状态的概念,数据中心内似乎没有什么是我们无法实现自动化的。
然而,现实愈发发人深省。尽管现代技术在许多领域为数据中心自动化提供了巨大潜力,但在可预见的未来,数据中心运营的一些关键方面可能是无法实现自动化的。
事实上,数据中心的物理性质意味着在某些方面,数据中心设施和设备的自动化比其他类型的IT基础设施或环境(例如公有云平台)更具挑战性。在公有云环境中,用户交互的所有内容都在这个平台上,并且是软件中定义,因此可以使用基于软件的解决方案轻松实现自动化。

为了证明这一点,我们来看看下面数据中心或数据中心运营的这五个方面,是所有人都不应指望很快就能实现完全自动化的。
1、服务器部署
在公有云中,自动部署服务器就像应用一些基础设施即代码模板来配置云资源一样简单。
然而,在数据中心中,这种自动化是不可能的,因为你部署的服务器是物理硬件,必须有人安装服务器,连接到电源和网络电缆,确保服务器适当冷却,等等。
理论上说,机器人可以自动化执行数据中心内服务器部署的大部分工作。然而,要使用机器人经济高效地完成这项工作,你就需要大规模的操作。你还需要足够一致且可预测的服务器部署,以便在无需人工帮助的情况下实现自动化。如今,大多数服务器部署都不符合这个标准。
尽管人们已经谈论机器人数据中心自动化的潜力至少有十年时间了,但我们在数据中心内仍然很少会看到机器人,这是有原因的:在大多数情况下这是不切实际的。在可预见的未来,预计服务器部署仍将是手动的方式。
2、硬件维护
类似地,在大多数情况下,在数据中心内部署后维护服务器硬件也不是一项可以实现自动化的任务。更换故障磁盘、更换磨损的电缆和电源、更新网卡是大多数数据中心的例行程序,处理这些问题的唯一方法是由技术人员操作。
3、HVAC的安装与维护
HVAC系统可以防止IT设备过热,是每个数据中心的重要组成部分。与服务器一样,HVAC系统也包含需要人工维护的物理组件。
远程HVAC传感器和监控系统可以帮助实现与HVAC管理相关的一些流程自动化,但最终,HVAC维护并不是一项可以在数据中心轻松实现自动化的工作。
4、物理安全
数据中心物理安全是另一个领域,监控系统可以帮助自动化某些任务,但需要人工干预来应对重大问题。
你可以使用传感器来跟踪数据中心内人员的移动,可以部署生物识别设备来自动控制对数据中心的物理访问,但如果检测到入侵者,或者自动访问控制系统无法正常运行,你就需要安全人员做出响应。
5、灾难恢复
在某些情况下,灾难恢复例行程序是可以自动化的,事实上,灾难恢复自动化对于在发生故障后恢复数据或应用时节省时间是至关重要的。
但是,只有当你需要恢复的资产是基于软件的,而且你有足够的基础设施来托管恢复的资产时,你才能自动执行灾难恢复。
如果恢复需要部署新硬件或更换故障组件(如果数据中心遭受自然灾害导致某些系统无法运行,则可能会出现这种情况),你就需要依靠人工手动执行工作。
数据中心自动化的局限性
尽可能广泛地自动化数据中心运营是有很多充分的理由,但数据中心管理的许多方面并不适合自动化。
即使在生成式AI和机器人技术的时代,也很难想象很快就会将人类从数据中心完全剔除。
好文章,需要你的鼓励
阿里纳德数据中心与Calibrant Energy合作开发首创电池储能系统,通过绕过传统电网升级时间线,使俄勒冈州希尔斯伯勒在建数据中心园区提前数年上线。该31兆瓦、62兆瓦时储能系统计划2026年投运,将作为响应电网的动态资产,在需求高峰期放电,增强区域电网可靠性。这标志着美国首次使用专用电池系统加速大型数据中心并网。
威斯康星大学研究团队开发了LUMINA系统,专门检测AI在回答问题时的"撒谎"行为。该系统发现AI有时会忽视提供的参考资料,固执地依赖内部知识生成不准确回答。LUMINA通过监测AI对外部文档和内部知识的依赖程度来识别这种行为,在多个测试中达到90%以上的准确率,比以往方法提升13%,为构建更可信的AI系统提供了重要工具。
微软在Edge浏览器中推出增强版Copilot模式,提供更强大的AI代理功能,目前在美国进行限量预览。该模式包含Actions和Journeys两大功能:Actions让浏览器能代表用户执行任务,如语音控制打开网页或查找文章特定内容;Journeys则记住用户浏览历史,帮助用户继续之前的研究任务。此举正值AI浏览器竞争加剧,OpenAI推出ChatGPT Atlas、Perplexity发布Comet、谷歌集成Gemini到Chrome。目前Chrome占据71%市场份额,Edge仅占4.67%。
这项由法国CentraleSupélec大学领导的研究通过严格控制的实验,系统比较了AI的推理训练与传统训练方式。研究发现推理训练在数学、开放式任务中效果显著,但需要70亿参数以上模型才能充分发挥优势,且成本增加明显。研究为AI开发者提供了明确的应用指导,有助于根据具体场景选择最优训练策略。