如果想提高数据中心的正常运行时间的话,就需要识别并减少最常见的故障源。这可能具有一定的挑战性,因为导致数据中心宕机的原因有很多,通常都不可能一下子解决所有的问题。数据中心运营商需要决定优先处理哪些正常运行时间的威胁。
美国正常运行时间研究所(Uptime Institute)的一份新报告在这方面提供了宝贵的指导。该报告详细介绍了截至 2024 年最常见的数据中心正常运行时间挑战,并对于一些会触发数据中心中断的事件揭示了一些令人惊讶的发现。
数据中心正常运行时间的最大威胁
有些人可能会认为,造成数据中心宕机的最常见原因是网络攻击或极端天气之类的风险,每当这一类风险发生时往往会受到媒体的大量关注。
但实际上,从数据中心正常运行时间的角度来看,这些风险几乎可以忽略不计。导致大多数数据中心故障的核心问题可以分为以下几类。
1、物理系统故障
电源问题是数据中心最常见故障的原因。根据 Uptime Institute 的报告,电源问题占所有数据中心故障的 52%。
另有 19% 的故障源于数据中心的冷却问题,Uptime Institute 将其与电力系统问题分开归类。
这意味着数据中心最大的正常运行时间风险明显是物理系统故障。数据中心运营商希望提高正常运行时间的话,就应该在冗余能源供应或暖通空调系统等解决方案方面进行投资。
2、第三方提供商的挑战
数据中心正常运行时间面临的第二个最常见威胁是 Uptime Institute 称之为有关第三方提供商的问题。这个问题指的是,企业通过外包协议或类似安排与服务提供商签订合同管理数据中心,而服务提供商导致了故障的发生。
至于转为数据中心内部运营能否能缓解这一问题是很难说的。按理说,数据中心外包公司专门从事数据中心的日常运营,其正常运行率可能比那些不以数据中心管理为重点的企业要高。但每个人在这方面的体验可能会有所不同,这取决于企业内部的员工是否擅长管理数据中心。
无论如何,这个数据点提醒我们,如果选择第三方提供商来管理数据中心的运营,那么就应该询问第三方提供商的正常运行时间记录,以确保提供商不会成为数据中心可用性战略中最薄弱的环节。
3、IT 设备故障
IT 系统硬件和软件故障是造成数据中心停机的第三大常见原因,这并不奇怪,因为自从数字时代开始以来,企业就一直在为服务器的崩溃而苦恼。
没有灵丹妙药可以降低这种风险,但还是有一些屡试不爽的策略,例如更多地在更好的监控和可观察性解决方案上投资,创建备份 IT 环境并配备自动故障转移控制,以便在服务器崩溃时,其工作负载可以立即转移到另一台服务器上。
4、网络故障
网络故障与 IT 设备故障类似:二者导致数据中心宕机的比率几乎完全相同,也是企业长期以来一直面临的一类挑战。
与增加 IT 设备正常运行时间一样,提升数据中心网络可靠性的策略包括更好地监控网络和在网络中构建冗余,使得数据包可以在网络部分出现故障时选择替代路径。
更广泛地使用软件定义网络也可以提高网络可靠性,使用软件控制而不是物理网络设备可以更容易识别和缓解故障。
其他数据中心正常运行时间挑战
火灾和信息安全事件也出现在Uptime Institute的数据中心停机原因排行榜上,但也只是勉强上榜,分别仅占所有停机事件的 3% 和 1%。
当然,这并不是说不应该投资防火措施和网络安全保护措施。但在考虑要优先哪些类型的数据中心正常运行时间风险时,数据显示这两项不应该是清单上的唯一行动。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。